sbosio / rla-es

Recursos lingüísticos abiertos del español
Other
221 stars 49 forks source link

Compendio de palabras faltantes de la Wikipedia en castellano #24

Closed eksperimental closed 8 years ago

eksperimental commented 9 years ago

Buenas a todos: Hace un tiempo largo que he estado trabajando en un proyecto que se encarga en utilizar a la Wikipedia en castellano como un corpus. Extraer todas las palabras, hacer una limpieza, y realizar un gran análisis. Me di cuenta viendo su proyecto, de la necesidad de tener conocimiento de cuáles son las palabras más frecuentes, para de ese modo darle prioridad a las faltantes.

El proyecto en cuestión se encuentra casi listo, pero por cuestiones de tiempo se ha demorado demasiado su publicación. Será software libre y espero sirva para muchos fines, entre ellos, a las personas que se dedican a crear correctores ortográficos, como es el caso de ustedes. Así que antes que deje correr más tiempo, vengo a ofrecerles de momento, un compendio de las palabras mas frecuentes, que no son detectadas por su diccionario.

La lista solamente incluye las primeras 1.872 palabras (la lista completa son algo más de 144.000). Incluyendo estas 1.872 palabras su diccionario estaría cubriendo el 95% de todas las palabras en Wikipedia. Este porcentaje se basa en la cantidad de palabras totales, y no únicas; por lo que toma en consideración su frecuencia. (y agregando solamente 193 palabras cubrirían el 90% de las palabras más populares)

Pueden ver la lista aquí: https://gist.github.com/eksperimental/acfc34a7bed80b967a42

Paso a explicar lo que significa cada columna: La lista se encuentra ordenada por orden de frecuencia:

Cabe destacar que he eliminado todas las palabras faltantes, que coincidían con el diccionario en ingles de Openoffice, ya que hay una gran cantidad de palabras en ingles en Wikipedia), así que habrá varias que se escriben igual en castellano y en ingles, y que están faltantes en su diccionario, que no aparecen aquí. habría que hacer una revisión manual (puede proveerles la lista completa con las palabras en ingles si así lo desean)

Palabras en total analizadas luego de eliminar hacer una limpieza y eliminar las que tenían muy pocas ocurrencias: Total de palabras: 360.308.743 Palabras únicas: 686.257

Agradecería que a medida que revisan la lista las palabras que consideren que desean excluir del diccionario, si las pueden agrupar por categorías ya sea por error ortográfico como "despues", o por ser abreviaciones como "msnm", o por cualquier otro motivo. Las agregaría a una lista negra entonces ya no aparecerían en los reportes.

Cualquier duda, no duden en consultar. espero que les sea de ayuda. -- Eksperimental

Actualización: El proyecto se encuentra disponible en: https://github.com/eksperimental/qorpora

Almorca commented 9 years ago

La idea es muy buena y el trabajo para llevarla a cabo seguro que ha sido grande así que muchas gracias. En cuanto empiece con los cambios para la versión 0.9 empezaré por aquí.

eksperimental commented 8 years ago

alguien se anima a incluir las primeras 193 de la lista para la proxima version del diccionario. con eso cubriríamos el 90% de la totalidad de las palabras que aparecen en Wikipedia

Almorca commented 8 years ago

Yo tenía pensado ponerme con ello. Si alguien más se anima buscamos un método para coordinarnos.

olea commented 8 years ago

¡es genial!

2015-04-09 13:27 GMT+02:00 eksperimental notifications@github.com:

Buenas a todos: Hace un tiempo largo que he estado trabajando en un proyecto que se encarga en utilizar a la Wikipedia en castellano como un corpus. Extraer todas las palabras, hacer una limpieza, y realizar un gran análisis. Me di cuenta viendo su proyecto, de la necesidad de tener conocimiento de cuáles son las palabras más frecuentes, para de ese modo darle prioridad a las faltantes.

El proyecto en cuestión se encuentra casi listo, pero por cuestiones de tiempo se ha demorado demasiado su publicación. Será software libre y espero sirva para muchos fines, entre ellos, a las personas que se dedican a crear correctores ortográficos, como es el caso de ustedes. Así que antes que deje correr más tiempo, vengo a ofrecerles de momento, un compendio de las palabras mas frecuentes, que no son detectadas por su diccionario.

La lista solamente incluye las primeras 1.872 palabras (la lista completa son algo más de 144.000). Incluyendo estas 1.872 palabras su diccionario estaría cubriendo el 95% de todas las palabras en Wikipedia. Este porcentaje se basa en la cantidad de palabras totales, y no únicas; por lo que toma en consideración su frecuencia. (y agregando solamente 193 palabras cubrirían el 90% de las palabras más populares)

Pueden ver la lista aquí: https://gist.github.com/eksperimental/acfc34a7bed80b967a42

Paso a explicar lo que significa cada columna: La lista se encuentra ordenada por orden de frecuencia:

  • Position: Es lugar en la lista total e palabras (por ejemplo la primera en la lista es la 610va palabra más popular)
  • Matches: Cuantas veces se encontró esta palabra
  • Frequency: 1 en X, en el primer caso la palabra aparece 1 vez en 7.096 palabras
  • Top%_: es el porcentaje de las palabras mas populares,
  • Word: es la palabra en cuestión

Cabe destacar que he eliminado todas las palabras faltantes, que coincidían con el diccionario en ingles de Openoffice, ya que hay una gran cantidad de palabras en ingles en Wikipedia), así que habrá varias que se escriben igual en castellano y en ingles, y que están faltantes en su diccionario, que no aparecen aquí. habría que hacer una revisión manual (puede proveerles la lista completa con las palabras en ingles si así lo desean)

Palabras en total analizadas luego de eliminar hacer una limpieza y eliminar las que tenían muy pocas ocurrencias: Total de palabras: 360.308.743 Palabras únicas: 686.257

Agradecería que a medida que revisan la lista las palabras que consideren que desean excluir del diccionario, si las pueden agrupar por categorías ya sea por error ortográfico como "despues", o por ser abreviaciones como "msnm", o por cualquier otro motivo. Las agregaría a una lista negra entonces ya no aparecerían en los reportes.

Cualquier duda, no duden en consultar. espero que les sea de ayuda.

  • Eksperimental

— Reply to this email directly or view it on GitHub https://github.com/sbosio/rla-es/issues/24.

Ismael Olea

http://olea.org/diario/

Almorca commented 8 years ago

Dejo aquí las primeras propuestas por si alguien las quiere repasar

Hab → hab (en noRAE/Abreviaturas.txt) cápita → de per cápita. ápita como tal no se acepta por la RAE así que esto no sé como añadirlo. Von → no existe en español. Msnm → no existe en español. Du → no existe en español. Br → no existe en español. Tribus → tribu/S (en RAE/NombresFemeninos.txt) desambiguación → desambiguar/REDAÀÄÌ (en RAE/VerbosTransitivosPronominales.txt) der → der (en noRAE/Abreviaturas.txt) ó → ó (en RAE/Conjunciones.txt) baterista → baterista/S (en RAE/NombresComunes.txt) goleador → goleador/GS (en RAE/NombresMasculinosFemeninos.txt) subespecie, subespecies → especie/sGS (en RAE/NombresFemeninos.txt) subcampeón → campeón/sGS (en RAE/NombresMasculinosFemeninos.txt) und → no existe en español. Subtropicales → tropical/sSl (en RAE/Adjetivos.txt) comune → no existe en español. autoría → ya en el diccionario internacionalmente → internacionalmente (en noRAE/Adverbios.txt) krai → no existe en español. Nominación → nominación/S (en RAE/NombresFemeninos.txt) coleoptera → no existe en español. Remodelación → remodelación/S (en RAE/NombresFemeninos.txt) ábside → ya en el diccionario raión → no existe en español. Della → dello/G (en RAE/Contracciones.txt) franquista → franquista/S (en RAE/Adjetivos.txt) codice → no existe en español. Monotípico → monotípico/S (en noRAE/Adjetivos.txt) ibn→ no existe en español. Centrocampista → centrocampista/S (en RAE/NombresComunes.txt) óblast→ no existe en español. nominaciones → ya corregido anteriormente finalización → finalización/S (en RAE/NombresFemeninos.txt) cantautor → cantautor/GS (en RAE/NombresMasculinosFemeninos.txt) mediocampista → mediocampista/S (en noRAE/NombresComunes.txt)

Fuera de la lista de palabras elimino especialista/S de RAE/NombresComunes.txt por estar repetido.

RickieES commented 8 years ago

cápita → de per cápita. ápita como tal no se acepta por la RAE así que esto no sé como añadirlo.

Supongo que querías decir "cápita como tal...". Se podría añadir en noRAE/NombresFemeninos.txt, pero a mí no me importaría que no se añadiera para que el redactor le eche un ojo y compruebe que está usando la construcción correcta (quien sepa usar "per cápita" sabrá cuándo lo está escribiendo y usando bien aunque el corrector se lo marque, y entenderá que no es una palabra en español).

der → der (en noRAE/Abreviaturas.txt)

Pues yo, la verdad, no la añadiría. No me parece una abreviatura de uso tan común y puede ocultar errores tipográficos al escribir "del".

Della → dello/G (en RAE/Contracciones.txt)

Esta está en desuso. ¿Seguro que merece la pena añadirla?

El resto de las que propones añadir me parecen bien. Me fío de ti en lo de desambiguar, que son muchos modificadores para revisarlos uno a uno. :smile:

De todas formas, estaba esperando a ver si nos solucionan al menos el problema de incluir el diccionario genérico en el paquete de idioma de LibreOffice para dar por cerrada la 2.0 (ya, falta OpenOffice, pero no está en nuestra mano solucionarlo) antes de comenzar a añadir cosas, y pensaba que lo mejor sería comenzar con los PR pendientes, ¿no?

Almorca commented 8 years ago

Con respecto a dello y cápita me parece bien que no estén en el diccionario. En cuanto a der tengo mis dudas ya que yo sí creo que der se usa bastante para abreviar derecha.

Por último, ¿a qué te refieres con PR?

Almorca commented 8 years ago

Por cierto, si no añadimos dello yo eliminaría na que también está en desuso y está como contracción.

Almorca commented 8 years ago

Añado nuevas palabras que he revisado.

pedanía → pedanía/S (en RAE/NombresFemeninos.txt) rapero → rapero/GS (en RAE/Adjetivos.txt) rap → rap/S (en RAE/NombresMasculinos.txt) miniserie → miniserie/S (en RAE/NombresFemeninos.txt) Habría que ver si merece la pena crear un afijo para mini-. Náhuatl → Náhuatl (en RAE/Adjetivos.txt) neoclásico → neoclásico/SG (en RAE/Adjetivos.txt). abría que ver si merece la pena crear un afijo para neo-. Destacable → destacable/S (en RAE/Adjetivos.txt) congresional → Usado en Antillas (yo entiendo que aquí entra Cuba, República dominicana y Puerto rico), Colombia, Estados Unidos y Nicaragua congresional/S (en RAE/l10n/es_CO/Adjetivos.txt) clado → palabra que no está en la RAE y que es usada en biología. Yo opto por no incluirla. Densamente → hay muchas palabras terminadas en -mente que son de uso común y no aparecen en la RAE. Creo que en este caso si es necesario un afijo -mente. Necrópolis → necrópolis (en RAE/NombresFemeninos.txt) subcampeonato → no está en la RAE pero es de uso común. campeonato/sS (añado s a campeonato/S en RAE/NombresMasculinos.txt)

Por el camino me he encontrado: rape/gS → tiene la bandera g para formar derrape. Deberíamos eliminar esta bandera añadir aparte la palabra derrape.

RickieES commented 8 years ago

Por último, ¿a qué te refieres con PR?

PR es "pull request" en terminología de GitHub. :smile:

Feliz año a todos, por cierto.

RickieES commented 8 years ago

Por cierto, si no añadimos dello yo eliminaría na que también está en desuso y está como contracción.

De acuerdo.

RickieES commented 8 years ago

miniserie → miniserie/S (en RAE/NombresFemeninos.txt) Habría que ver si merece la pena crear un afijo para mini-.

Tenemos uno para micro, pero no para macro. Tampoco tenemos uno para maxi. Hay varias posibilidades: crear tres prefijos, añadir los tres prefijos nuevos bajo el mismo afijo de mini, o incluso crear otro afijo más y reunir en el de mini también maxi, y en el nuevo afijo micro y macro. El problema de las opciones que agrupan es que pueda haber palabras que no acepten de manera natural los cuatro prefijos. Por ejemplo, "macrofiesta" está bien, pero "microfiesta" no parece muy natural.

Añadir los prefijos no es tampoco tema baladí. Ahora tenemos que añadirlos en todos los archivos de afijos y, además, añadirlos no significa que se comiencen a usar inmediatamente: luego tendríamos que revisar todas las palabras que están añadidas con los prefijos incluidos.

Náhuatl → Náhuatl (en RAE/Adjetivos.txt)

Si no me equivoco, si se añade una palabra en minúsculas se considera válida también en mayúsculas, pero no al contrario, por lo que tendría que ir en minúscula. La cuestión es: ¿es una palabra de uso habitual? Yo jamás la había oído.

neoclásico → neoclásico/SG (en RAE/Adjetivos.txt). Habría que ver si merece la pena crear un afijo para neo-.

No sé, solo veo cinco adjetivos que comiencen por neo añadidos ahora mismo (hay otras cuatro, pero para mí no están usando el prefijo, sino que es parte de su raíz, como neoyorquino o neolítoco).

congresional → Usado en Antillas (yo entiendo que aquí entra Cuba, República dominicana y Puerto rico), Colombia, Estados Unidos y Nicaragua congresional/S (en RAE/l10n/es_CO/Adjetivos.txt)

No tenemos variante para Estados Unidos; para el resto, me parece bien.

clado → palabra que no está en la RAE y que es usada en biología. Yo opto por no incluirla.

De acuerdo.

Densamente → hay muchas palabras terminadas en -mente que son de uso común y no aparecen en la RAE. Creo que en este caso si es necesario un afijo -mente.

Esto lo hemos pensado varias veces, pero nunca lo hemos hecho. Lo de los afijos lo tendríamos que pensar en un issue separado, en mi opinión.

Lo que no pongo es porque estoy de acuerdo también.

Almorca commented 8 years ago

Añado las siguientes palabras que he revisado.

für → no existe en español. iraní → ya en el diccionario porteño → porteño/GS (en RAE/Adjetivos.txt) biodiversidad → biodiversidad (en RAE/NombresFemeninos.txt) liguilla → liga/NS (en RAE/NombresFemeninos.txt) impactos → impacto/S (en RAE/NombresMasculinos.txt) reestructuración → estructuración/pS (en RAE/NombresFemeninos.txt) historiografía → historiografía/S (en RAE/NombresFemeninos.txt) mánager → mánager (en RAE/NombresMasculinosFemeninos.txt) sismicidad → No aparece en la RAE pero si parece bastante usada. Yo la añadiría. disquera → disquera/S (en noRAE/NombresFemeninos.txt para CU,VE,UY) señalización → señalización/S (en RAE/NombresFemeninos.txt) neutrones → neutrón/S (en RAE/NombresMasculinos.txt) franquismo → franquismo (en RAE/NombresMasculinos.txt) futbolística → futbolístico/GS (en RAE/Adjetivos.txt) destitución → destitución/S (en RAE/NombresFemeninos.txt) reedición → edición/pS (en RAE/NombresFemeninos.txt) á → error de escritura finlandés → ya en el diccionario

Además hay que revisar en el fichero de afijos la regla A ya que con sustituir forma sustituición en vez de sustitución.

RickieES commented 8 years ago

Además hay que revisar en el fichero de afijos la regla A ya que con sustituir forma sustituición en vez de sustitución.

El problema está en esta línea:

SFX A r         ción/S       [^c]ir

La razón por la que nuestro corrector no admite como válida "sustituición" es porque el afijo A no está añadido al verbo sustituir. No obstante, he buscado en el diccionario de la RAE (ahora se puede) todas las palabras que acaban en ~uir y salen unas cuantas (he marcado con un asterisco las que pueden derivar una acción):

afluir
* atribuir
capitidisminuir
circuir
concluir
confluir
confuir
* conseguir
* constituir
* construir
* contribuir
* deconstruir
defuir
delinquir
derelinquir
derrelinquir
derruir
* desobstruir
* destituir
* destruir
difluir
diluir1; diluir2
* diminuir
* disminuir
* distinguir
* distribuir
efluir
eluir
erguir
esmuir
estatuir
excluir
* extinguir
extruir
faquir
fluir
fruir
fuir
gruir
huir
* imbuir
incluir
influir
inmiscuir
* instituir
* instruir
* intuir
irruir
jaquir
luir1; luir2
muir
muquir
* obstruir
* ocluir
* perseguir
precluir
proseguir
* prostituir
protruir
recluir
* reconstituir
* reconstruir
* redistribuir
refluir
rehuir
reseguir
* restituir
* retribuir
seguir
sostituir
* subdistinguir
subseguir
* substituir
* sustituir
tribuir

A continuación abriré un issue separado para esto y lo referenciaré aquí.

RickieES commented 8 years ago

No había revisado tu última lista de palabras:

biodiversidad → biodiversidad (en RAE/NombresFemeninos.txt)

No es que crea que se vaya a usar mucho pero ¿no sería posible encontrar biodiversidades, en plural?

sismicidad → No aparece en la RAE pero si parece bastante usada. Yo la añadiría.

Yo hay días que no la uso. :wink: Pero, bueno, si se añade (377.000 resultados en Google), sería en noRAE/NombresFemeninos.txt como sismicidad/S (de nuevo, a lo mejor nos podemos ahorrar el plural).

destitución → destitución/S (en RAE/NombresFemeninos.txt) reedición → edición/pS (en RAE/NombresFemeninos.txt)

Estas dos podrían derivarse de los respectivos verbos, una vez arreglemos lo del sufijo -ción.

Estoy viendo la lista y es enoooooooorme. Para que puedas ir incorporando los cambios sin retener nuevas versiones, ¿no convendría dividir el issue en varios, de acuerdo a porcentajes? Por ejemplo, ahora estás en el 87,16 %. Podrías cubrir hasta el 88 % en este issue y abrir otro para continuar, de manera que podamos incluir el resultado de este en la próxima versión.

Almorca commented 8 years ago

Estoy viendo la lista y es enoooooooorme. Para que puedas ir incorporando los cambios sin retener nuevas versiones, ¿no convendría dividir el issue en varios, de acuerdo a porcentajes? Por ejemplo, ahora estás en el 87,16 %. Podrías cubrir hasta el 88 % en este issue y abrir otro para continuar, de manera que podamos incluir el resultado de este en la próxima versión.

Mi idea era hacer un primer bloque de 100. Después podemos abrir otro reporte con las 93 siguientes y con esto dice @eksperimental que quedaría cubierto el 90% de los casos.

Almorca commented 8 years ago

Mando el último grupo de palabras para completar las 100 primeras

il → no existe en español. Dei → no existe en español. destacables → ya en el diccionario vikingos → vikingo/GS (en RAE/Adjetivos.txt) teclista → teclista/S (en RAE/NombresMasculinosFemeninos.txt) tau taus tipología → tipología/S (en RAE/NombresFemeninos.txt) iconografía → iconografía/S (en RAE/NombresFemeninos.txt) pretemporada → temporada/nS (añado n en RAE/NombresFemeninos.txt) ou → no existe en español. Exfutbolista → no tenemos afijo para ex- (sería exfutbolista/S en NoRAE/NombresComunes.txt) torreta → torreta/S (en RAE/NombresFemeninos.txt) presumiblemente → en CORPES XXI aparecen 595 casos en 512 documentos. Yo lo añadiría y -mente pide a gritos su inclusión en el fichero de afijos. Vikingo → vikingo/GS (en RAE/Adjetivos.txt) dia → no existe en español. Problablemente sea un problema de que falte la tilde por lo que se podría reportar a la Wikipedia para que lo revisen. Narcotráfico → narcotráfico (en RAE/NombresMasculinos.txt) dels → no existe en español. Peronismo → peronismo (en RAE/NombresMasculinos.txt) cirílico → cirílico/GS (en RAE/Adjetivos.txt) nazismo → nazismo (en RAE/NombresMasculinos.txt) delimitación → delimitar/REDAÀ (añado A en RAE/VerbosTransitivos.txt) cofundador → cofundador/GS (en RAE/Adjetivos.txt) superhéroes → héroe/tS (añado t en RAE/NombresMasculinos.txt) protagónico → protagónico/S (en RAE/Adjetivos.txt) pseudónimo → pseudónimo/S (en RAE/Adjetivos.txt) exjugador → exjugador/S (en NoRAE/NombresMasculinos.txt aunque aquí dudo de si meterlo en RAE) ex- también pide estar en afijos. Guardameta → guardameta/S (en RAE/NombresMasculinosFemeninos .txt) hemiptera → es una palabra latina. En español es hemíptero que sí lo tenemos Geógrafo → geógrafo/GS (en RAE/NombresMasculinosFemeninos.txt) aprox → aprox (en noRAE/Abreviaturas.txt) ecorregión → ecorregión/S (en RAE/NombresFemeninos.txt) pívot → pívot (en RAE/NombresMasculinosFemeninos.txt) protones → protón/S (en RAE/NombresMasculinos)

Además he eliminado taus y lo he cambiado por tau/S

RickieES commented 8 years ago

-mente ya estaba en el issue #60, y acabo de añadir ex- en el comentario inicial. Pero los afijos no nos da tiempo a tenerlos antes de la 2.1, así que, o bien omites los ex- y -mente, o bien los añades y luego, si añadimos los afijos, vamos quitando lo que se convierta en redundante con los respectivos afijos.

Si se añade el prefijo ex-, entiendo que no haría falta añadir exjugador en noRAE. Tenemos jugador/GS como adjetivo, así que solo haría falta añadir el prefijo en ese lema.

Por cierto, felicidades por acabar un trabajo tan grande. :+1:

Almorca commented 8 years ago

Creo que he subido los cambios correctamente pero si alguien lo puede revisar se lo agradecería.

Quedan pendiente de solucionar las siguientes palabras: cápita → de per cápita. cápita como tal no se acepta por la RAE así que esto no sé como añadirlo. sismicidad → No aparece en la RAE pero si parece bastante usada. Yo la añadiría.

densamente y presumiblemente quedan a la espera de cerrar el bug #60

Además habría que modificar rape/gS → tiene la bandera g para formar derrape. Deberíamos eliminar esta bandera añadir aparte la palabra derrape.

RickieES commented 8 years ago

Quedan pendiente de solucionar las siguientes palabras: cápita → de per cápita. cápita como tal no se acepta por la RAE así que esto no sé como añadirlo.

Yo no la añadiría; al menos, de momento no creo que podamos añadir expresiones.

sismicidad → No aparece en la RAE pero si parece bastante usada. Yo la añadiría.

En CORPES aparecen 133 entradas distribuidas en muchos países distintos, por lo que habría que añadirla con carácter general, como sismicidad/S en NombresFemeninos.txt (aunque lo del sufijo de plural podríamos omitirlo porque no creo que vaya a usarse mucho).

Además habría que modificar rape/gS → tiene la bandera g para formar derrape. Deberíamos eliminar esta bandera añadir aparte la palabra derrape.

Sin duda, en NombresMasculinos.txt, como derrape/S.

¿Puedes hacerlo tú? Mañana es 27 y estaría bien que pudiéramos cerrar lo que queda abierto. Habría que abrir otro issue con las palabras que faltan de aquí, asignar este a la versión 2.1 y cerrarlo.

Almorca commented 8 years ago

Ahora no estoy en casa. Lo puedo añadir mañana por la mañana pero si quieres ir cerrar cosas puedes añadirlas tú sin problema.

Almorca commented 8 years ago

Añado las últimas palabras y doy por cerrado este hilo.

RickieES commented 8 years ago

Una pregunta sobre este issue. ¿No se supone que ibas a añadir las primeras 100 palabras y moverías el resto a otro issue separado? Lo digo porque no he visto que hayas creado otro issue con el resto. ¿Al final has incluido todas?

Almorca commented 8 years ago

Mi idea es pedirle a @eksperimental que vuelva a generar el fichero eliminando las 100 primeras palabras que ya hemos revisado en este issue.

@eksperimental ¿puedes volver a generar un nuevo fichero de palabras? Si no podemos seguir con las siguientes palabras de la lista.

eksperimental commented 8 years ago

@almorca no puedo hacerlo en estos dias. Cuando lo haga puedo cerrar este issue. Sino pueden editarla manualmente, en caso q no lo pueda subir la semana entrante

Almorca commented 8 years ago

@eksperimental Por mí no corre prisa y tampoco creo que nadie más se vaya a poner inmediatamente a revisarlo teniendo más issues por cerrar. Lo que sí, si no es mucha molestia, creo que es más útil partir de una nueva lista actualizada que no de ésta que ya tiene un año.

Si no te ves con tiempo abrimos un nuevo issue con las palabras que faltan de esta lista y punto.

eksperimental commented 7 years ago

El proyecto que se encarga de generar este lista se encuentra compartido en https://github.com/eksperimental/qorpora