Meno: | Peter |
---|---|
Priezvisko: | Nather |
Názov: | N-Gram based Text Categorization |
Vedúci: | Mgr. Jan Habdak |
Rok: | 2005 |
Blok: | UI |
Kµúčové slová: | N-gram, text categorization, text clusterization |
Abstrakt: | V mojej praci som sa povodne pokusal zlepsit system na automaticku kategorizaciu textov, zalozeny na baze porovnavani sekvencii znakov(N-gramo). Nakolko som vsak neziskal pristup k potrebnym datam, navrhol som system na clusterizaciu, cize roztriedenie dokumentov na zaklade ich podobnosti. Zakladom systemu je tiez pouzitie N-gramov. Cely system som testoval na sade anglickych knih a dosiahol som pomerne zaujimave vysledky. |
Súbory diplomovej práce:
textcat.zip |
Ng-based-tc.pdf |