Teraman: Nástroj pro extrakci slovních N-gramů

Zadal:Ing. Zdeněk Češka, Ph.D.
Datum poslední úpravy:29.12.2013
Rok zařazení2007
Velikost:413 kB
Počet stažení:14
Zkratka:teraman

Popis produktu

Nástroj Teraman umožňuje extrakci slovních N-gramů z rozsáhlých textových kolekcí, což nebylo dosud možné. Náš přístup je založen na dávkovém zpracování a je schopen zpracovávat textové dokument, které jsou mnohem větší než velikost dostupné operační paměti. Proces se skládá ze tří kroků: předzpracování a indexace, spočítání N-gramů a deindexace. Tento nástroj byl vyvinut v jazyce C# v prostředí .NET Framework 2.0, které je vyžadováno pro běhu aplikace. Více informací o nástroji Teraman se dozvíte v článku "Teraman: A Tool for N-gram Extraction from Large Datasets", publikovaném na mezinárodní konferenci IEEE ICCP 2007.


Stáhnout

Použití produktu je vázáno licencí: CC-BY-NC-S

Creative Commons Attribution-NonCommercial-ShareAlike



Soubory produktu

#NázevPopisVelikost
1.TMRG_Teraman.zip406 kB
 

Aktualizováno 2012-04-23 10:17:01