Funkční vzorek - Nástroj pro vyhledávání a analýzu faktů

Zadal:Ing. Miloslav Konopík, Ph.D.
Datum poslední úpravy:17.4.2021
Rok zařazení2021
Velikost:339 kB
Počet stažení:5
Zkratka:TL02000288-V4

Popis produktu

Nástroj pro vyhledávání a analýzu faktů (zkráceně Fact Search) analyzuje a porovnává různé metody sémantického a na klíčová slova orientovaného vyhledávání dokumentů. Je určen pro práci nad databázemi zpráv, lze ho snadno upravit tak, aby pracoval se samostatnými textovými informacemi. Současná implementace je postavena na archivu zpravodajských článků České tiskové kanceláře (ČTK) z let 2000 až 2019. Implementováno je klasické vyhledávání (klíčových slov) založené na TFIDF [1] a také nejmodernější varianta, založená na Transformer-like neuronových sítích [2, 3] pro sémanticky orientované vyhledávání. Neuronové modely jsou trénovány s ohledem na kontrolu faktů, tj. podporu/odmítnutí tvrzení. Aplikaci lze také použít pro úlohy typu dotaz/odpověď.

Aktuální modely jsou trénovány s využitím české verze datové sady pro ověřování faktů FEVER [4] Wikipedia, kterou vytvořil tým ČVUT. Trénování modelů využívá anotovaný datový soubor pro kontrolu faktů, vytvořený přímo nad daty ČTK (anotační aplikace úzce souvisí s vyhledávácí).

Z pohledu uživatele umožňuje aplikace Fact Search vyhledávání dokumentů v reálném čase v rozsáhlých textových databázích a současně slouží k porovnává různých metod vyhledávání. Spolu s vyhledáváním poskytuje statistické údaje v jednotlivých krocích vyhledávání a také popis statistické distribuce dokumentů. Dále také poskytuje vysvětlení predikce na úrovni slova nebo věty, což pomáhá posoudit kvalitu modelu. Pro uživatele je důležité funkcionalita, která jim pomáhá zaměřit se na relevantní části analyzovaného textu.

Aplikace dále obsahuje počáteční verzi modulu klasifikátoru, který poskytuje hodnocení věrohodnosti deklarace (w.r.t.) databáze zpráv.

[1] Htut, Phu Mon, Samuel R. Bowman, and Kyunghyun Cho. "Training a ranking function for open-domain question answering." arXiv preprint arXiv:1804.04264 (2018).

[2] Chang, Wei-Cheng, et al. "Pre-training tasks for embedding-based large-scale retrieval." arXiv preprint arXiv:2002.03932 (2020).

[3] Reimers, Nils, and Iryna Gurevych. "Sentence-BERT: Sentence embeddings using siamese BERT-networks." arXiv preprint arXiv:1908.10084 (2019).

[4] Thorne, James, et al. "FEVER: a large-scale dataset for fact extraction and verification." arXiv preprint arXiv:1803.05355 (2018).

Výsledek vznikl v rámci grantu: TL02000288 - Proměna etických aspektů s nástupem žurnalistiky umělé inteligence


Tento projekt je spolufinancován se státní podporou Technologické agentury ČR v rámci Programu ETA.





Stáhnout

Použití produktu je vázáno licencí: KIV-ZCU-EULA

ZCU/KIV End User License Agreement



Soubory produktu

#NázevPopisVelikost
1.DolozeniSplneni_V4.docx351 kB
 

Aktualizováno 2012-04-23 10:17:01