sbosio / rla-es

Recursos lingüísticos abiertos del español
Other
217 stars 48 forks source link

verbo "poder", "soler" #238

Closed rikivillalba closed 4 years ago

rikivillalba commented 4 years ago

Hola. Utilizo el diccionario con la librería hunspell en R y he notado que no encuentra el lema para "poder" Además, no conjuga correctamente "soler" ni "doler", pero sí "moler"

textstem::make_lemma_dictionary(c("ama", "bebe", "parte", "puede", "muele", "duele", "suele", "pone"), engine = "hunspell" , lang = "es_ANY")

token lemma 1 ama amar 2 bebe beber 3 parte partir 4 muele moler 5 duele dolar 6 suele solar 7 pone poner

sbosio commented 4 years ago

Hola @rikivillalba.

Esto que notificas no es un incidente. El problema viene dado porque nuestro diccionario, para el motor de corrección Hunspell, no proporciona información sobre los lemas raíz desde el que se derivan las palabras. Esa es una extensión de Hunspell para análisis gramatical que no estamos utilizando hasta el momento.

El resultado parcial que estás obteniendo se debe a que en el formato Hunspell se utilizan lemas y reglas de derivación, como es el caso de las conjugaciones verbales, para comprimir y optimizar el tamaño del producto final. Probablemente la biblioteca de R que estés usando para realizar el stemming, al no contar con la información gramatical, te esté devolviendo el verbo en infinitivo desde el que se ha derivado el lema conjugado cuando este último se obtiene mediante la aplicación de alguna regla de sufijos.

En el caso del verbo poder no lo está haciendo puesto que es una conjugación completamente irregular (es un verbo con conjugación modelo que se aplica solo a sí mismo o a muy pocos otros verbos) y la creación de reglas para ese tipo de verbos no optimiza el resultado final sino todo lo contrario, por eso es que se listan los lemas conjugados individualmente en un fichero, específicamente en https://github.com/sbosio/rla-es/blob/master/ortografia/palabras/RAE/ConjugacionesIrregulares.txt.

El proyecto de añadir la información de derivación y etiquetado gramatical es uno de mis sueños sin realizar en este proyecto. Es una tarea larga, seguramente. Parte de cómo está organizado el proyecto en ficheros que identifican la función gramatical y en reglas de afijos que están definidas con criterios gramaticales tuvo siempre la finalidad de, en algún momento, poder añadir esa información faltante de una forma más simple.

Cierro el reporte de incidencia porque hasta ahora el objetivo del proyecto solo es proporcionar el listado de palabras para corrección ortográfica, no gramatical.

¡Saludos!

olea commented 4 years ago

@sbosio ¿has revisado el reporte acerca de «soler» y «doler»?

sbosio commented 4 years ago

Sí @olea, desde mi punto de vista, todo está bien. No está conjugando mal ningún verbo, solamente se da ese caso porque justo doler y soler comparten la misma conjugación de la primera persona del presente de indicativo: duelo y suelo con los verbos dolar y solar que se conjugan como el modelo contar y se derivan con reglas de sufijos, al contrario que los otros verbos que están conjugados sin reglas, con lo lemas listados en ConjugacionesIrregulares.txt.