sbosio / rla-es

Recursos lingüísticos abiertos del español
Other
221 stars 49 forks source link

La definición del sufijo 'N' (terminación -illo, -illa) debería desdoblarse en dos casos según el género #14

Closed sbosio closed 5 years ago

sbosio commented 10 years ago

El sufijo con bandera 'N' puede aplicarse a nombres y adjetivos tanto masculinos como femeninos, pero si bien las terminaciones de ciertos lemas en algunos casos diferencian el género, en otros no. Por ejemplo: el lema calzón (masculino), debe derivarse en calzoncillo, que puede lograrse con la regla existente: SFX N ón oncillo/S ón, pero el lema canción (femenino) tiene la misma terminación y sería derivada incorrectamente como cancioncillo, en lugar de cancioncilla. Mi propuesta sería dividir la regla en dos según su género (masculino o femenino), y otra opción sería incluir los lemas directamente, sin reglas de sufijo, pero no creo que sea bueno. Dejo el problema planteado y me gustaría saber qué opinan otros, para proceder a darle una solución definitiva.

RickieES commented 10 years ago

Esta página:

http://www.laspalabras.net/suffixe.php

permite consultar palabras por su terminación. La verdad es que si buscamos las que acaban en -on u -ón salen muchísimas, pero si ponemos -ción ya salen menos y yo diría que prácticamente todas son femeninas por estar formadas mediante la aplicación del sufijo -ación.

Es muy poco ortodoxo (por no decir que es una burrada), :-) pero se podría añadir a esa bandera una regla así:

SFX N ción cioncilla/S ción

para solucionar el problema de momento.

sbosio commented 10 years ago

No me parece que sea una mala idea ni una burrada, es más es bastante interesante. Añadí un par de archivos en el directorio /contrib en una nueva rama (branch). Uno contiene un listado de lemas terminados en -illo/-illa y el otro todos los lemas que actualmente tienen la bandera 'N' colocada.

La idea es analizar cuántos de los lemas terminados en -illo/-illa son diminutivos de lemas que habría que etiquetar con la bandera 'N' y revisar los que ya están etiquetados, además de verificar la corrección de las reglas de sufijación para adaptarlas y que sirvan para cualquiera de los casos.

Como me parece que es una tarea larga, la dejo por ahora en el hito Después.

RickieES commented 8 years ago

Aunque este issue no esté marcado para la 2.2, le estoy echando un ojo a los archivos que creaste en la rama. Lo que pasa es que esa rama se creó antes de pasar los archivos a UTF-8 y se visualiza mal en el navegador. No recordarás cómo creaste la lista, ¿verdad? Supongo que es con una expresión regular, pero como soy bastante torpe, probablemente me equivoque.

Almorca commented 8 years ago

Imagino que la expresión será algo así grep ._\/._N.* *.txt Otra opción es en Firefox ir a Ver -> Codificación de caracteres -> Occidental.

RickieES commented 5 years ago

Voy a intentar hacerme cargo de este issue. Voy a insertar mi propuesta de regla:

SFX N ción cioncilla/S ción

justo delante de esta:

SFX N ón oncillo/S ón

para que se aplique antes en los lemas terminados en ~ción. El cambio se debe hacer en todos los ficheros de afijos, pero creo que voy a comenzar haciéndolo solo en el general y probaré con es_ANY el resultado.

Seguidamente (al cambio en el fichero de afijos general únicamente), tendré que añadir la bandera N a una selección de lemas que ahora mismo cuentan con el diminutivo añadido como lema independiente, para ver si funciona bien.

Si todo es correcto, añadiré el afijo en el resto de localizaciones y, dependiendo del tamaño de la colección de lemas y de mi tiempo disponible, veré si hago todos los cambios dentro de este issue o si abro varios para ir haciendo el reemplazo paulatinamente.

RickieES commented 5 years ago

He hecho la prueba y todo ha funcionado bien, pero al mirar algunos de los lemas terminados en -cilla que preparó @sbosio he visto que no solo las palabras terminadas en -ción son candidatas a aplicar el sufijo, sino que también serían candidatas las terminadas en -sión, como pasión o transgresión.

Tengo que revisar si la regla se puede cambiar de -ción a -ión, o si es mejor dejarla como está y añadir una regla más para -sión.

RickieES commented 5 years ago

He estado mirando las palabras terminadas en -ión y he modificado las reglas de la bandera N para dejarlas así:

SFX N ión       ioncilla/S   [cglnstx]ión
SFX N ón        oncillo/S    [^i]ón

Así pues, palabras como canción, religión, rebelión, opinión, pasión, cuestión o flexión ya pueden recibir la bandera N para generar cancioncilla o cancioncillas, religioncilla, rebelioncilla, etc. Por su parte, camión generará camioncillo y cabrón (con perdón) :smiley: generará cabroncillo.

RickieES commented 5 years ago

He buscado lemas terminados en -illo:

grep -R -e illo$ | less
grep -R -e illo/G$ | less

Y, por increíble que parezca, no he encontrado ningún lema que deba suprimirse y sustituirse por la adición de la bandera N al lema principal. Casi todos son topónimos. Si no tenéis ninguna sugerencia, creo que podríamos dar por cerrado este issue.

RickieES commented 5 years ago

Lo cierro.