Popis tématu

Diplomová práce v oboru Softwarové inženýrství.

Klasifikace krátkých textových dokumentů

Vychází se z již realizovaných implementací klasifikátoru itemsets, vhodného pro kategorizaci krátkých dokumentů. Úkolem je identifikovat silné a slabé stránky tohoto přístupu z pohledu různých textových kolekcí a různého způsobu výpočtu vah. Řeší se problém přetrénování vs. délka itemsetů, problém vlivu pozitivních a negativních atributů, korelace mezi slovy v textové kolekci, použití heuristik při výpočtu vah vs. support/confidence, a zejména pak ruční výběr získaných asociačních pravidel a jeho vliv na úspěšnost. Součástí práce je využití kolokací a n-gramů v kombinaci s častými množinami položek, porovnání a analýza výsledků.

Téma vypsal: Prof. Ing. Karel Ježek, CSc. (UC 308)

Externí téma:
  • Firma (kontaktní osoba) je vedoucím práce,
  • Kontaktní osoba: Ing.Jiří Hynek, PhD , jiri.hynek@insite.cz,

Vypsáno pro akademický rok 2006/2007 dne: 2006-05-10

Zadáno komu: (Nedokončené)

Aktualizováno 0