Diplomová práce v programu, specializaci Softwarové inženýrství.
Časté množiny položek (itemsety) nachází uplatnění v dolování znalostí z transakčních databází, v poslední době se úspěšně aplikují na databáze textové. Seznamte se s různými způsoby hledání itemsetů (často se společně vyskytujících slov) v textových dokumentech – a to tradičních (algoritmus Apriori a jeho nejrůznější modifikace) i moderních (metody založené na grafech, FP-tree atd.). Identifikujte výhody a nevýhody různých přístupů, kvantifikujte jejich efektivitu, implementujte nebo použijte hotovou implementaci těchto algoritmů na reálných textových kolekcích, porovnejte výsledky pro různé kolekce a analyzujte dosažené výsledky.
Téma vypsal: Prof. Ing. Karel Ježek, CSc. (UC 308)
Externí téma:Vypsáno pro akademický rok 2006/2007 dne: 2006-05-10
Zadáno komu: (Nedokončené)