Témata projektů

Popis tématu

Diplomová práce v oboru Softwarové inženýrství.

Toolkit pro klasifikaci textových dokumentů

Vychází se z již realizovaných aplikací pro klasifikaci textů vytvořených v rámci diplomových prací na ZČU. Úkolem je seznámit se s různými přístupy i jejich implementací a integrovat hotové aplikace do použitelné sady programů s jednotným ovládáním. Součástí práce je návrh vzájemně porovnatelných experimentů na různých textových kolekcích a různé způsoby měření úspěšnosti klasifikace. Autor by se měl rovněž zaměřit na vlivy různých statistických parametrů textových kolekcí na klasifikaci, a to i z perspektivy různých klasifikátorů. V této souvislosti je úkolem připravit standardní textové kolekce pro testování (zejm. Reuters, TREC, Medline apod.), využitelné při srovnávání implementovaných algoritmů v mezinárodním měřítku.

Téma vypsal: Prof. Ing. Karel Ježek, CSc. (UC 308)

Externí téma:
  • vedoucí: Ing.Jiří Hynek, PhD, jiri.hynek@insite.cz,
  • externí firma je vedoucím práce,

Vypsáno pro akademický rok 2006/2007 dne: 2006-05-10

Zadáno komu: Kovář Petr (Zadané)