Popis tématu

Projekt v navazujícím studiu v programech, specializacích Informatika a její specializace - Medicínská informatika, Informatika a její specializace - Počítačová grafika, Informatika a její specializace - Zpracování přirozeného jazyka, Softwarové a informační systémy - Informační systémy, Softwarové a informační systémy - Robustní softwarové systémy, Softwarové a informační systémy - Softwarové inženýrství.

Syntetická data (více témat/oblastí/studentů)

============================================================================
Konkrétní téma bude domluveno dle typu práce a po individuální domluvě.
============================================================================

* Analýza a porovnání open-source nástrojů pro tvorbu syntetických dat

Cíl: Prozkoumat a prakticky porovnat nástroje jako SDV (Synthetic Data Vault), Faker, DataSynthesizer, jejich možnosti a omezení, a navrhnout případové použití.

* Využití generativních modelů pro tvorbu syntetických tabulkových dat

Cíl: Implementovat základní generativní model (např. GAN nebo variational autoencoder) pro generování tabulkových dat na základě trénovací množiny.

* Evaluace kvality syntetických dat: metody a praktická aplikace

Cíl: Prozkoumat metody hodnocení syntetických dat (statistická podobnost, ML utility, ochrana soukromí), aplikovat je na různé generované datasety a navrhnout doporučení pro správné použití.

* Základy generování syntetických dat pro testování softwarových systémů

Cíl: Seznámit se s principy tvorby syntetických dat a navrhnout jednoduchý nástroj nebo skript pro generování dat ve formátu CSV/TXT, JSON či XML, využitelný pro vývoj a testování např. databázových a aplikačních systémů nebo nástrojů anonymizace.

* Generování syntetických osobních údajů

Cíl: Vytvořit soubor syntetických dat reprezentujících osobní údaje (jména, adresy, rodná čísla, diagnózy atd.) tak, aby napodobovaly reálnou strukturu a distribuci, ale neobsahovaly žádné skutečné osoby.

* Modelování a generování syntetických dat pomocí generativních neuronových sítí (GANs)

Cíl: Prozkoumat možnosti GAN architektur pro tvorbu realistických syntetických datasetů, provést evaluaci kvality včetně rizika reidentifikace, případně navrhnout hybridní přístup kombinující více metod.

* Tvorba syntetických zdravotnických dat pro výzkumné a výukové účely

Cíl: Navrhnout a implementovat postup pro bezpečné generování syntetických zdravotnických záznamů (např. pacientské karty, laboratorní hodnoty) s důrazem na zachování statistické věrohodnosti.

* Generování a evaluace syntetických dat v různých formátech

Cíl: Navrhnout a implementovat modulární nástroj pro generování syntetických dat ve strukturovaných, semistrukturovaných i nestrukturovaných formátech (CSV, RDF, JSON-LD, obrázky). Rozhraní pro porovnání s reálnými daty.

* Syntetická data jako nástroj pro ochranu soukromí: přehled, přínosy a limity

Cíl: Zhodnotit syntetická data jako prostředek pro ochranu citlivých údajů ve výzkumu, analyzovat možnosti jejich využití v souvislosti s GDPR a srovnat je s klasickými anonymizačními technikami.

Téma vypsal: Ing. Petr Včelák, Ph.D. (UN357)

Vypsáno pro akademický rok 2025/2026 dne: 2025-04-29

Rezervace tématu

Toto téma je zatím volné. Pokud o téma máte vážný zájem, vyplňte prosím následující formulář, kterým si téma zamluvíte (všechny položky jsou povinné).

Jméno a příjmení:

Studijní číslo: Email:

Aktualizováno 0