Témata projektů

Popis tématu

Diplomová práce v oboru Softwarové inženýrství.

Moderní metody hledání častých množin položek v textových databázích

Časté množiny položek (itemsety) nachází uplatnění v dolování znalostí z transakčních databází, v poslední době se úspěšně aplikují na databáze textové. Seznamte se s různými způsoby hledání itemsetů (často se společně vyskytujících slov) v textových dokumentech – a to tradičních (algoritmus Apriori a jeho nejrůznější modifikace) i moderních (metody založené na grafech, FP-tree atd.). Identifikujte výhody a nevýhody různých přístupů, kvantifikujte jejich efektivitu, implementujte nebo použijte hotovou implementaci těchto algoritmů na reálných textových kolekcích, porovnejte výsledky pro různé kolekce a analyzujte dosažené výsledky.

Téma vypsal: Prof. Ing. Karel Ježek, CSc. (UC 308)

Externí téma:
  • vedoucí: Ing.Jiří Hynek,PhD, jiri.hynek@insite.cz,
  • externí firma je vedoucím práce,

Vypsáno pro akademický rok 2006/2007 dne: 2006-05-10

Zadáno komu: (Nedokončené)