Adición masiva de lemas que faltan

santilin commented 7 years ago

Hola, he visto que hay varias issues abiertas sobre adición de algunas palabras. Como informático, y conocedor del proyecto Lemarios, me apetece añadir las palabras de lemarios a este proyecto de forma más o menos automatizada. Para ello, primero necesito generar la lista de palabras de este proyecto.

El proceso sería el siguiente:

Generar todas las palabras de este proyecto (usando formwords de hunspell).
Sacar las diferencias con el lemario del proyecto lemarios
Añadir los sufijos correspondientes a las diferencias
Agregar las nuevas palabras a este proyecto.

¿Es el proceso correcto? ¿Alguna sugerencia/ayuda?

Por otro lado, ¿sería conveniente diferenciar en archivos separados los lemas que están incluidos en la RAE y los que no?

cosmoscalibur commented 7 years ago

Hola @santilin. Dentro de RLA-ES los lemas se clasifican según:

Pertenencia a RAE: RAE o noRAE.
Distribución geográfica de uso: Se usa la forma estándar para la localización, es_XX, donde XX se reemplaza por el código ISO del país.
Categoría según significado sintáctico: Adverbios.txt, Adjetivos.txt, Pronombres.txt, ...

Por otro lado, si una palabra está incluida debe diferenciarse la categoría en la cual estaba, pues una palabra puede pertenecer a múltiples categorías y debe añadirse a todas.

Por ello considero que el primer paso es la clasificación de los lemas según sus categorías, ya que la revisión debe ser con base a existencia según los criterios de clasificación expuestos y no solo si el corrector la puede detectar.

sbosio commented 7 years ago

Es correcto @cosmoscalibur, pero supongo que @santilin lo que quiere es una forma rápida de descartar del lemario todo lo que no haría falta revisar, al menos en principio, considerando que las que ya aparecen en el resultado de aplicar todas las inflecciones posibles al diccionario actual "deberían" haber sido añadidas en todas sus categorías. Remarco el "deberían" porque seguramente eso no sea 100% cierto, y además se van agregando en cada revisión de la RAE nuevas acepciones. Muy al inicio del proyecto yo construí desde varios lemarios (entre ellos el de @olea, en una versión anterior), junto con muchos libros descargados como TXT un conjunto inicial de lemas. Todo ese listado lo filtré y clasifiqué con una herramienta automática contra el DRAE. Con esa misma herramienta detectaba los verbos y tomaba la información de la conjugación modelo para poder guiarme al armar las reglas de conjugación del fichero de afijos con todas sus alteraciones ortográficas. Esa herramienta y los datos asociados los perdí en algún momento de la historia, igual ahora no serviría porque funcionaba con la revisión 22 del DRAE que estaba en línea. Ahora han cambiado mucho las interfaces y funciona en forma distinta. Habría que armar nuevos robots para extraer la información nuevamente.

El 14 de septiembre de 2017, 10:37, Edward Yesid Villegas Pulgarin < notifications@github.com> escribió:

Hola @santilin https://github.com/santilin. Dentro de RLA-ES los lemas se clasifican según:

Pertenencia a RAE: RAE o noRAE.

Distribución geográfica de uso: Se usa la forma estándar para la localización, es_XX, donde XX se reemplaza por el código ISO del país.

Categoría según significado sintáctico: Adverbios.txt, Adjetivos.txt, Pronombres.txt, ...

Por otro lado, si una palabra está incluida debe diferenciarse la categoría en la cual estaba, pues una palabra puede pertenecer a múltiples categorías y debe añadirse a todas.

Por ello considero que el primer paso es la clasificación de los lemas según sus categorías, ya que la revisión debe ser con base a existencia según los criterios de clasificación expuestos y no solo si el corrector la puede detectar.

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub https://github.com/sbosio/rla-es/issues/146#issuecomment-329484132, or mute the thread https://github.com/notifications/unsubscribe-auth/ABO0GIpbFdx8qz2CaG3njKKUnaEuATlyks5siSwQgaJpZM4PXJ-Q .

cosmoscalibur commented 7 years ago

Igualmente @santilin, como lo mencione en el otro tópico al final, pienso trabajar en la rutina de clasificación. He visto varios proyectos que pueden ser de ayuda que se mantienen actualizados respecto a la estructura web de la página del DLE, lo cual facilitaría la labor de extracción web. El que me llamo más la atención y lo empecé a probar ayer, es pyrae. Tiene comportamientos anómalos que reporte ayer con algunas palabras pero puede ser un punto de partida para ayudar a mejorarla y una vez este, seguir con lo interesante para este proyecto. Podríamos trabajar juntos en este proceso si te parece.
Claro @sbosio, "debería" ser 100%, pero justo algunas de las adiciones que me aprobaste eran lemas que no estaban en todas las categorías (el último de esos que recuerdo, "sobre", que estaba en preposiciones, como conjugación de sobrar pero faltaba el nombre masculino).

santilin commented 7 years ago

Vale, ya me voy enterando mejor de cómo va el proyecto y sus metas.

Mi interés principal es llegar a programar un corrector gramatical, por lo que todo lo que decís aquí es pertinente.

No entiendo bien por qué se hacen ficheros separados para los tipos gramaticales de palabras. ¿No se puede inferir esa información a partir de los sufijos de cada palabra?

santilin commented 7 years ago

@cosmoscalibur, sí, me gustaría ayudar a la clasificación de lemas. ¿Por dónde empiezo?

cosmoscalibur commented 7 years ago

Hola @santilin , si justamente te interesa un corrector gramatical es necesaria con mayor razón la clasificación en ficheros (por comodidad para posprocesamiento). Yo me estoy documentando respecto a los formatos de LanguageTool para esa parte, ya que es más fácil colaborar con un proyecto que ya tenga un avance en el tema que empezar desde cero. Con los ficheros posteriormente podemos generar más fácil el etiquetado correspondiente para LT (etiquetas usadas en LT para el español).
La información de la categoría gramatical no se puede inferir siempre a partir de la suposición de usar toda terminación de una palabra como un sufijo. Por ejemplo:

zar no es un verbo en infinitivo sino un nombre masculino.
canción no es una "acción o efecto" de cantar.
jurista también corresponde a nombre masculino.

Me parece una buena opción empezando por colaborar en la corrección de los dos reportes que hice en pyrae (y probar que otros posibles casos de fallo hay en la extracción de significados de las palabras y conjugaciones de verbos). Esto me parece importante ya que de otra forma tendrías que hacer los robots para la extracción web desde cero (y no le veo mucho sentido a ello). Una vez esto (sino lo ha corregido primero el error que ya lo autoasignó), aprovechamos la opción de generar todas los lemas y extraemos sus significados. Finalmente, ya toca revisar las cadenas claves para la clasificación (yo redactaré un breve documento al respecto de como se usan los archivos con base a aclaraciones que hay a lo largo de los reportes de este proyecto). No se que te parece la propuesta de iniciar colaborando primero con pyrae o si es tu intención hacer tu propio robot.

santilin commented 7 years ago

Uff, he mirado el proyecto LanguageTool y usa xml y java. Es demasiado para mí, no voy a colaborar en un proyecto con esas tecnologías.

Por ahora me interesa más colaborar con pyrae y otras herramientas para extraer información del DLE. ¿Por cierto, habéis valorado usar el wikcionario?

cosmoscalibur commented 7 years ago

Hola @santilin , creo que esta redacción que preparé puede dar contexto sobre la clasificación de los lemas que mencionamos anteriormente, las abreviaturas que debe identificar el robot durante el análisis (así como las precauciones del caso) y menciones a las fuentes de lemas con sus respectivas definiciones (como wikcionario).
Clasificación de lemas (uso de archivos).
Respecto al uso de xml y java para colaborar con LT, no es necesario. Si lo hacemos desde lo ya construido aquí, es algo muy similar a hacer un texto plano solo que los lemas no van separados por archivos sino con un código que indica su clasificación (sería hacer un mapeo de archivos a código alfanumérico).

santilin commented 7 years ago

@cosmoscalibur Excelente trabajo, muchas gracias.

Lo que no termino de entender es por qué separar los nombres en cinco ficheros, cuando en uno solo, con el tag adecuado, se podría tener toda la información.

cosmoscalibur commented 7 years ago

Buen día @santilin , no soy tan antiguo en el proyecto para saber al detalle la razón exacta pero con las discusiones entiendo lo siguiente: el primer objetivo del proyecto es el corrector ortográfico, para lo cual la clasificación gramatical de los lemas realmente no aporta nada y por ende no tiene sentido que para su compilación uno de los pasos sea remover etiquetas innecesarias (a pesar de que hunspell tenga soporte para ellas pero aumentaría la inercia de los colaboradores). Por otro lado, creo que la búsqueda del punto de inserción de un nuevo lema es mucho más simple si se mantienen los archivos separados (menos lemas por archivo y reducir tiempo de carga de los mismos durante edición). Sin duda esto podría hacerse automático pero me cuento entre quienes agregamos los lemas de manera manual en vez de hacer una rutina de inserción (lo único automático que agregue fue los lemas de topónimos colombianos).
Aún así, más allá de un asunto de comodidad, la separación de archivos según la categoría gramática permite contemplar alcanzar un segundo objetivo en el futuro que sería el corrector de gramática sin que se aumente la complejidad para el corrector de ortografía (sin duda, si desde el inicio tocará usar etiquetas de hunspell me hubiera tomado más tiempo empezar a colaborar).
Esto aclaro, es solo un punto de vista personal.

sbosio / rla-es

Adición masiva de lemas que faltan #146