Diplomová práce v programu, specializaci Softwarové inženýrství.
Vychází se z již realizovaných implementací klasifikátoru itemsets, vhodného pro kategorizaci krátkých dokumentů. Úkolem je identifikovat silné a slabé stránky tohoto přístupu z pohledu různých textových kolekcí a různého způsobu výpočtu vah. Řeší se problém přetrénování vs. délka itemsetů, problém vlivu pozitivních a negativních atributů, korelace mezi slovy v textové kolekci, použití heuristik při výpočtu vah vs. support/confidence, a zejména pak ruční výběr získaných asociačních pravidel a jeho vliv na úspěšnost. Součástí práce je využití kolokací a n-gramů v kombinaci s častými množinami položek, porovnání a analýza výsledků.
Téma vypsal: Prof. Ing. Karel Ježek, CSc. (UC 308)
Externí téma:Vypsáno pro akademický rok 2006/2007 dne: 2006-05-10
Zadáno komu: (Nedokončené)