vendredi 20 janvier 2017

WordTabulator

ANSI Filter

WordTabulator est destiné à l'analyse de texte. Avec l'aide de wordTabulator vous pouvez générer des index des éléments de mots extraits de jeu de texte défini. éléments de mot peut être des mots, des N-grammes (de taille définie) ou des phrases (syntagmes). Le programme peut traiter des textes que dans deux-octets ordinaires codant (ANSI), comme dans plusieurs octets encodage UTF-8. Textes source sont définis comme un ensemble de fichiers de texte plat ou HTML / XML / SGML documents. Dans le dernier cas, le programme peut filtrer le contenu de balisage. En outre, vous pouvez traiter uniquement le contenu défini dans les balises paires sélectionnées. Ou vous pouvez sauter que le contenu de la transformation. Il inclut le module de morphologie pour russes, trois formats différents de l'indice de la production, trois types d'éléments de mots (mots, N-Grams et phrases), le navigateur de leur contexte, et vrai l'ordre alphabétique différentes.

Aucun commentaire:

Enregistrer un commentaire

Archives du blog