Teraman: Nástroj pro extrakci slovních N-gramů
Zadal: | Ing. Zdeněk Češka, Ph.D. |
Datum poslední úpravy: | 29.12.2013 |
Rok zařazení | 2007 |
Velikost: | 413 kB |
Počet stažení: | 14 |
Zkratka: | teraman |
Popis produktu
Nástroj Teraman umožňuje extrakci slovních N-gramů z rozsáhlých textových kolekcí, což nebylo dosud možné. Náš přístup je založen na dávkovém zpracování a je schopen zpracovávat textové dokument, které jsou mnohem větší než velikost dostupné operační paměti. Proces se skládá ze tří kroků: předzpracování a indexace, spočítání N-gramů a deindexace. Tento nástroj byl vyvinut v jazyce C# v prostředí .NET Framework 2.0, které je vyžadováno pro běhu aplikace. Více informací o nástroji Teraman se dozvíte v článku "Teraman: A Tool for N-gram Extraction from Large Datasets", publikovaném na mezinárodní konferenci IEEE ICCP 2007.
Soubory produktu
# | Název | Popis | Velikost |
---|
1. | TMRG_Teraman.zip | | 406 kB |