Softcatala / catalan-dict-tools

Tools for managing Catalan dictionaries
Other
52 stars 5 forks source link

catalan-dict-tools

Aquest projecte té com a objectiu generar diccionaris en català per al format Hunspell i per al corrector gramatical LanguageTool.

Diccionari arrel

El diccionari arrel (en el directori "diccionari-arrel") conté les dades bàsiques a partir de les quals es construeixen els altres diccionaris. Les paraules estan separades en fitxers per categories gramaticals. Per a aquests fitxers s'usen dos formats diferents segons els casos.

Scripts

Prerequisits (Perl)
build-hunspell.sh

Genera diccionaris Hunspell en versió general i valenciana a partir del diccionari arrel.

En el fitxer fdic-to-hunspell/dades/exclusions.txt s'indiquen formes i lemes que han de ser exclosos dels diccionaris Hunspell per diferents motius.

build-lt.sh

Genera el diccionari amb etiquetatge gramatical per al corrector Languagetool.

make-test-lt-fdic.sh

És un test que converteix el fitxer de LT en format de diccionari; aquest es converteix de nou en format LT i es compara amb el fitxer inicial.

build-xpi-all.sh (obsolet)

Genera fitxers xpi (compatibles amb el Firefox) a partir dels resultats per al Hunspell.

build-xpi-all.webext.sh

Genera fitxers xpi (compatibles amb el Firefox, versió Web Extensions API) a partir dels resultats per al Hunspell.

build-oxt-all.sh

Genera fitxers oxt (compatibles amb el LibreOffice i l'Apache OpenOffice) a partir dels resultats per al Hunspell.

build-morfologik-lt.sh

Genera la versió compilada (amb la llibreria Morfologik) del diccionari de LanguageTool. Requereix LanguageTool.

build-wordlist-from-lt.sh

Genera una llista de totes les paraules possibles, incloent-hi apostrofació i pronoms febles (ex. d'anar-se'n, l'esmentat). Genera ~10 milions de formes (~166 M). És necessari per a algunes aplicacions.

prepare-release.sh

./prepare-release.sh -v '3.0.0' -> Genera tots els fitxers necessaris per a release (versió 3.0.0).

Per fer

LICENSE

This project and the whole dictionaries derived from it are licensed under a dual license LGPL v2.1 and GPL v2. See the files lgpl-2.1.txt and gpl-2.0.txt.