Oborový projekt v programech, specializacích Informatika a její specializace - Medicínská informatika, Informatika a její specializace - Počítačová grafika, Informatika a její specializace - Zpracování přirozeného jazyka, Softwarové a informační systémy - Informační systémy, Softwarové a informační systémy - Robustní softwarové systémy, Softwarové a informační systémy - Softwarové inženýrství.
============================================================================
Konkrétní téma bude domluveno dle typu práce a po individuální domluvě.
============================================================================
* Analýza a porovnání open-source nástrojů pro tvorbu syntetických dat
Cíl: Prozkoumat a prakticky porovnat nástroje jako SDV (Synthetic Data Vault), Faker, DataSynthesizer, jejich možnosti a omezení, a navrhnout případové použití.
* Využití generativních modelů pro tvorbu syntetických tabulkových dat
Cíl: Implementovat základní generativní model (např. GAN nebo variational autoencoder) pro generování tabulkových dat na základě trénovací množiny.
* Evaluace kvality syntetických dat: metody a praktická aplikace
Cíl: Prozkoumat metody hodnocení syntetických dat (statistická podobnost, ML utility, ochrana soukromí), aplikovat je na různé generované datasety a navrhnout doporučení pro správné použití.
* Základy generování syntetických dat pro testování softwarových systémů
Cíl: Seznámit se s principy tvorby syntetických dat a navrhnout jednoduchý nástroj nebo skript pro generování dat ve formátu CSV/TXT, JSON či XML, využitelný pro vývoj a testování např. databázových a aplikačních systémů nebo nástrojů anonymizace.
* Generování syntetických osobních údajů
Cíl: Vytvořit soubor syntetických dat reprezentujících osobní údaje (jména, adresy, rodná čísla, diagnózy atd.) tak, aby napodobovaly reálnou strukturu a distribuci, ale neobsahovaly žádné skutečné osoby.
* Modelování a generování syntetických dat pomocí generativních neuronových sítí (GANs)
Cíl: Prozkoumat možnosti GAN architektur pro tvorbu realistických syntetických datasetů, provést evaluaci kvality včetně rizika reidentifikace, případně navrhnout hybridní přístup kombinující více metod.
* Tvorba syntetických zdravotnických dat pro výzkumné a výukové účely
Cíl: Navrhnout a implementovat postup pro bezpečné generování syntetických zdravotnických záznamů (např. pacientské karty, laboratorní hodnoty) s důrazem na zachování statistické věrohodnosti.
* Generování a evaluace syntetických dat v různých formátech
Cíl: Navrhnout a implementovat modulární nástroj pro generování syntetických dat ve strukturovaných, semistrukturovaných i nestrukturovaných formátech (CSV, RDF, JSON-LD, obrázky). Rozhraní pro porovnání s reálnými daty.
* Syntetická data jako nástroj pro ochranu soukromí: přehled, přínosy a limity
Cíl: Zhodnotit syntetická data jako prostředek pro ochranu citlivých údajů ve výzkumu, analyzovat možnosti jejich využití v souvislosti s GDPR a srovnat je s klasickými anonymizačními technikami.
Téma vypsal: Ing. Petr Včelák, Ph.D. (UN357)
Vypsáno pro akademický rok 2025/2026 dne: 2025-04-29
Toto téma je zatím volné. Pokud o téma máte vážný zájem, vyplňte prosím následující formulář, kterým si téma zamluvíte (všechny položky jsou povinné).