Popis tématu

Diplomová práce v oboru Ostatní / Nespecifikováno.

Porovnání významu dvou textů v různých jazycích

Automatické porozumění textu počítačem je jedno z aktuálně řešených témat na poli zpracování přirozeného jazyka (NLP). Nejúspěšnější metody jsou založené na strojovém učení a je snaha o jazykovou nezávislost. Stejná reprezentace významu pro různé jazyky.

Vstupem jsou 2 texty v různých jazycích. Cíl je stanovit jejich významovou podobnost. Např.:

Dva psi si hrajou v trávě.
Two dogs playing in the snow.

Podobnost=2.8 z 5, kde 5 znamená kompletně stejný význam a 0 naprosto rozdílný význam.


Náš NLP tým se na výzkumu těchto metod aktivně podílí. V roce 2016 jsme se umístili na prvním místě v dané úloze na soutěži SemEval (Semantic Evaluation). SemEval je každoročně pořádaná soutěž v oblasti zpracování přirozeného jazyka (NLP) organizovaná asociací ACL, která je sponzorovaná firmami jako Google, Facebook, Twitter, Yahoo, Amazon, Apple, atd. Výsledky lze nalézt na http://alt.qcri.org/semeval2016/task1/index.php?id=results#CrosslingualSTS (tým UWB).

Cíle diplomové práce:
- Seznámit se s danou úlohou
- Seznámit se se stávajícím systémem na podobnost textů
- Naimplementovat novou metodu pro podobnost textů – vysvětlí zadavatel
- Vše otestovat

Více detailů lze probrat na osobní schůzce.

Téma vypsal: Ing. Tomáš Brychcín, Ph.D. (UN 337)

Vypsáno pro akademický rok 2017/2018 dne: 2017-05-04

Zadáno komu: (Nedokončené)

Aktualizováno 0