Diplomová práce v programech, specializacích Softwarové inženýrství, Inteligentní počítačové systémy, Medicínská informatika.
(téma je vhodné spíše pro SWI, ale neomezuji ho pouze na studenty tohoto oboru)
Vylepšení aplikace pro automatickou extrakci označení aditiv z fotografií obalů potravin.
Co je nyní hotovo:
V roce 2019 vznikla v rámci diplomové práce aplikace, která umožňuje extrahovat označení přídavných látek potravin (tzv. aditiv či lidově éček) z fotografií jejich obalů a prezentovat je uživateli formou seznamu aditiv dané potraviny; autor Martin Šíp, viz https://portal.zcu.cz/StagPortletsJSR168/CleanUrl?urlid=prohlizeni-prace-detail&praceIdno=79573 . Cílem aplikace je poučit svého uživatele o škodlivosti zvolené potraviny přímo v době nákupu.
Celý systém je složen ze serverové části (Java, Angular) a z mobilní aplikace (Android). Mobilní aplikace slouží pro pořízení snímku textu se složením potraviny, který se nachází na jejím obalu. Daný snímek je mobilní aplikací předzpracován a s využitím OCR algoritmu je z něj získán text. Tento text je odeslán na server a serverová aplikace z něj extrahuje označení aditiv. Označení aditiva může být v textu uvedeno buďto plným názvem aditiva, či jeho kódovou značkou začínající písmenem E, za kterým následuje číselný identifikátor. Získaný seznam označení aditiv je odeslán zpět mobilní aplikaci a ta ho vypíše uživateli. Výpis je doplněn o informace získané z webu ferpotravina.cz. Součástí informací je nejen popis výroby aditiva, ale i hodnocení jeho škodlivosti na škále 0 až 6. Dle nejhůře hodnoceného aditiva dané potraviny tato aplikace hodnotí i danou potravinu celkově. Pozn.: OCR je prováděno nástrojem Tesseract a při extrakci označení aditiv je využita knihovna Leptonica. Předzpracování fotografie je prováděno vlastními implementacemi.
Pro účely vyhodnocení kvality extrakce označení aditiv z fotografií byla vytvořena webová aplikace (Angular) pro anotování fotografií, s jejímž využitím vznikla menší kolekce anotovaných fotografií.
Požadavky na budoucí DP:
Cílem budoucí diplomové práce bude vylepšit stávající systém o některé funkce a o další jazyk, například angličtinu či ruštinu, a dále doplnit ukládání fotografií, které pořídí uživatel, pro budoucí ověření kvality. V rámci testování je potřeba provést důkladné ověření kvality extrahování aditiv, a to jak z textu českého, taky i cizojazyčného. Věřím, že při práci přijdete i na další možná vylepšení aplikace. Výstupem diplomové práce by měla být provozuschopná aplikace.
Dále jsou shrnuty jednotlivé požadavky. Rozdělení na oborový projekt a DP může být i jiné, pokud se domluvíme. Taktéž nekladu meze dalším nápadům a diskuzi.
Jednotlivé požadavky - oborový projekt:
• doplnit anotační aplikaci tak, aby umožňovala automatické předzpracování anotovaných fotografií (tj. provést nad fotografií extrakci aditiv naší současnou metodou a výsledky poradit administrátorovi při anotování).
• dále doplnit anotaci o jazyk, ve kterém je uveden text, nad kterým má být provedena extrakce.
• provést anotaci kolekce fotografií (množství nyní nebudeme určovat).
• v této fázi by také bylo vhodné rozchodit celý stávající systém na serverech ZČU.
• získat z webu popisy aditiv pro zvolený jazyk (EN/RU/?) a spárovat je s popisy a hodnoceními, které máme nyní v CZ (spojení proběhne dle označení E). (Pozn.: tento bod lze přesunout do DP).
Jednotlivé požadavky - diplomová práce:
• (seznámení se se stávajícím systémem a s knihovnami Tesseract a Leptonica a analýza problému)
• doplnit mobilní aplikaci a server o získávání fotografií od uživatele (a ideálně i o zpětnou vazbu, např. umožnit uživateli opravit zobrazený seznam extrahovaných aditiv a odeslat ho na server). Pozn.: po spuštění na severu by mělo být možné sbírat fotografie ve více osobách (testeři aplikace).
• zakomponovat využití získaných “uživatelských” fotografií do anotační aplikace.
• doplnit systém o volbu jazyka extrakce (ideálně i částečně přeložit mobilní aplikaci).
• upravit systém tak, aby pracoval pro zvolený jazyk. To se týká zvláště slovníku pro knihovnu Leptonica.
• provést testování kvality systému na anotované kolekci fotografií + diskuze výsledků.
Téma vypsal: Ing. Michal Nykl, Ph.D. (UN 326)
Vypsáno pro akademický rok 2020/2021 dne: 2020-04-03
Toto téma je sice volné, ale protože bylo vypsáno pro akademický rok 2020/2021, tak ho již nelze rezervovat. Pro případné bližší informace kontaktujte osobu, která téma vypsala.