Popis tématu

Ostatní v oboru Informatika (Bc).

Klasifikace WWW stránek na základě URL adresy

Na KIV je v souvislosti s doktorandským studiem vyvíjen systém pro automatickou filtraci WWW stránek na základě analýzy jejich textového obsahu.

Celý systém je vytvářen v jazyce Java a je složen z modulů realizujících různé akce. Jedním z modulů, který je potřeba vytvořit a otestovat, je analyzátor a klasifikátor hypertextových odkazů. Na základě slov a zkratek nalezených v adrese lze rozhodnout o charakteru celé stránky, kterou adresa zastupuje, aniž by bylo potřeba na stránku přistoupit. Princip klasifikace WWW stránek na základě jejich adres je již vytvořen (materiály poskytne zadavatel). Práci je nutné realizovat tak, aby mohla být použita jako modul i jako samostatný program.

Předpokládá se funkčnost na systémech Windows i Linux (silně preferován je jazyk Java).

Práce je určena pro 1 nebo 2 studenty, kteří jsou schopni nastudovat potřebné materiály, dotáhnout práci do fungující podoby, kteří dokáží pružně reagovat na vzniklé podněty a přicházet s novými nápady. Požadována je průběžná spolupráce se zadavatelem.

Podrobnosti: http://www.kiv.zcu.cz/research/groups/text/

Téma vypsal: Doc. Ing. Přemysl Brada, MSc., Ph.D. (UC 354)

Vypsáno pro akademický rok 2005/2006 dne: 2005-03-22

Zadáno komu: Petr Čech (dokončeno: 2006-01-05)

Aktualizováno 0