Teraman: Nástroj pro extrakci slovních N-gramů
| Zadal: | Ing. Zdeněk Češka, Ph.D. |
| Datum poslední úpravy: | 29.12.2013 |
| Rok zařazení | 2007 |
| Velikost: | 413 kB |
| Počet stažení: | 14 |
| Zkratka: | teraman |
Popis produktu
Nástroj Teraman umožňuje extrakci slovních N-gramů z rozsáhlých textových kolekcí, což nebylo dosud možné. Náš přístup je založen na dávkovém zpracování a je schopen zpracovávat textové dokument, které jsou mnohem větší než velikost dostupné operační paměti. Proces se skládá ze tří kroků: předzpracování a indexace, spočítání N-gramů a deindexace. Tento nástroj byl vyvinut v jazyce C# v prostředí .NET Framework 2.0, které je vyžadováno pro běhu aplikace. Více informací o nástroji Teraman se dozvíte v článku "Teraman: A Tool for N-gram Extraction from Large Datasets", publikovaném na mezinárodní konferenci IEEE ICCP 2007.
Soubory produktu
| # | Název | Popis | Velikost |
|---|
| 1. | TMRG_Teraman.zip | | 406 kB |