Popis tématu

Oborový projekt v oborech Softwarové inženýrství, Informatika a její specializace - Zpracování přirozeného jazyka.

Automatické generování obsahu historických dokumentů

V rámci této práce se zaměříme na analýzu možností automatické tvorby obsahu pro tištěné historické dokumenty.

V této úloze využijeme již vyvinuté segmentační metody. Metody budou přizpůsobeny tak, aby kromě jednotlivých bloků a řádek dokázaly určit i nadpis kapitoly / sekce / podsekce. Na učení metod použijeme anotované historické datasety pro angličtinu, které jsou volně dostupné pro výzkumné účely. Jedná se o výzkumné téma, vlastní iniciativa studentů velmi vítána. Není "šuplíkovka", v případě úspěchu bude nasazeno na historickém portálu Porta fontium: https://www.portafontium.eu

Téma vypsal: Doc. Ing. Pavel Král, Ph.D. (UN 336)

Vypsáno pro akademický rok 2022/2023 dne: 2022-09-20

Rezervace tématu

Toto téma je zatím volné. Pokud o téma máte vážný zájem, vyplňte prosím následující formulář, kterým si téma zamluvíte (všechny položky jsou povinné).

Jméno a příjmení:

Studijní číslo: Email:

Aktualizováno 0