sbosio / rla-es

Recursos lingüísticos abiertos del español
Other
221 stars 49 forks source link

Detección incorrecta de los prefijos en el diccionario español #10

Closed RickieES closed 8 years ago

RickieES commented 10 years ago

Corresponde al registro 867 de de RLA-ES en Forja.rediris.es Creado por Ricardo Berlasso (rgb-es) con fecha y hora 2014-03-28 20:49

Salvo casos muy particulares (ver (1) para una descripción completa), los prefijos en castellano van unidos a las palabras que modifican. Con la versión 0.7 del diccionario en OpenOffice, palabras como «precondición» o «extesorero» (correctas) son marcadas como erróneas, mientras que «pre-condición» o «ex-tesorero» (erróneas) son marcadas como correctas.

(1) http://blog.lengua-e.com/2014/los-prefijos-se-escriben-juntos/

sbosio commented 10 years ago

Esto yo creo que no es un error del diccionario, sino que es la forma de sugerir reemplazos de Hunspell. Uno de los reemplazos se realiza por separación, insertando un espacio entre cualesquiera dos letras para una palabra no reconocida, si al hacerlo se forman dos palabras existentes, ofrece la sugerencia. Lo mismo pasa con los guiones. Para LibreOffice/OpenOffice un guión es un carácter de separación de palabras (a menos que se utilice el guión de no separación). No es que la palabra "ex-tesorero" la identifique como correcta, sino que "ex" y "tesorero" las considera correctas. Para que reconozca extesorero, hay que añadir esa palabra al diccionario. Pero estos añadidos deberían hacerse en función de su nivel de utilización.

Hay unas banderas que permiten controlar este comportamiento (creo que una de estas es NOSPLITSUGS), pero no sé si sería deseable: http://ufpr.dl.sourceforge.net/project/hunspell/Hunspell/Documentation/hunspell4.pdf

Por ahora cerraría el bug porque me parece que no es un error. Si no están de acuerdo, se puede volver a abrir el bug.

RickieES commented 10 years ago

Reabro para aclarar algunas cuestiones que pueden quedar en el aire.

Resumiendo, a efectos de RLA-ES, este registro supone las siguientes actuaciones:

[1] http://lema.rae.es/dpd/srv/search?id=mCmmW1s3ED66AfojsM|KPy2jXs5wD6l0rrjYs [2] http://lema.rae.es/drae/?val=ex

sbosio commented 10 years ago

Totalmente de acuerdo. La única aclaración es que los términos desusados yo había empezado a moverlos a un archivo con igual nombre que el archivo de donde lo eliminaba, pero con extensión ".old". Lo iba haciendo alfabéticamente, pero abandoné cuando llegué a la letra "D".

Hice las correcciones en el commit https://github.com/sbosio/rla-es/commit/527219e4bc31378fa1d4a27744b203b5ba7bbb63.

Con esto creo que ya quedaría cerrado.

fitojb commented 10 years ago

si nos atenemos a la RAE [1][2], debiendo escribirse en su lugar "ex tesorero".

@RickieES Nótese que el DPD está desactualizado. Para conocer la norma vigente de la RAE, consúltese la Ortografía de 2010; las páginas 153 y 538 son especialmente relevantes. Definitivamente el prefijo ex- aparece pegado a la palabra que modifica (cuando es una sola).

P. D.: El URL de lengua-e.com funciona para mí.

RickieES commented 10 years ago

Bueno, pues parece que tenemos caso. :-) El problema que veo es cómo añadir un prefijo tan habitual a tantísimas palabras distintas. Una adición masiva puede dar lugar a construcciones erróneas (yo siempre defenderé que es mejor que el diccionario marque como erróneas construcciones que son válidas que no al contrario, aceptar como válidas palabras erróneas), y una adición manual llevaría demasiado tiempo.

Se me ocurre que podríamos abrir un problema ("issue") para cada archivo en el que haya que revisar palabras, comenzando por los que corresponden a nombres. Otra opción es añadirlo sólo en la palabra tesorero y esperar que nos vayan llegando las correcciones.

En cuanto al prefijo en el fichero afijos.txt, como hay bastante correlación entre el orden alfabético de los prefijos y la bandera usada para ellos (es decir, la bandera a corresponde al prefijo a- y an-, la bandera b corresponde al prefijo ante-, la c al prefijo anti-, etc.), yo propongo usar la letra ĵ (jota con un acento circunflejo encima), que se puede obtener usando el teclado normalmente y es la que seguiría a j, entre-.

sbosio commented 10 years ago

Soy partidario de la segunda opción, añadir "extesorero", e ir agregando luego las que vayan siendo notificadas.

En cuanto a añadir el prefijo, no es necesario que esté en orden. Se puede utilizar la siguiente bandera que no esté ocupada (creo que tocaría la "w"), la única distinción que hice fue utilizar minúsculas para los prefijos y mayúsculas para los sufijos, como para distinguirlas más fácil en los listados de palabras, pero nada más. Que estén ordenadas alfabéticamente sucedió solo porque utilicé para crear las reglas de prefijos un escrito (que ya no sé donde está, ni recuerdo el enlace) donde se enumeraban los 100 prefijos más utilizados en español. De esos saqué los primeros 25 o algo así.

RickieES commented 9 years ago

Cambio el milestone a Después, ya que no llegamos a la versión 0.8.

RickieES commented 8 years ago

Aquí lo que falta sería añadir el afijo ex (ojo, hay que añadirlo en todas las localizaciones), y luego optar por una de estas dos opciones:

Crear el afijo llevará cierto tiempo, y la segunda opción de la lista anterior también. Si realmente nos planteamos llegar al día 15, vamos a ir muy justos.

RickieES commented 8 years ago

Me pongo con ello. El prefijo ex es muy simple, solo tiene una regla porque siempre se añade igual, con independencia del principio de la palabra a la que se añade. Lo añado con la bandera w, para seguir la lista.

Lo añado en todos los ficheros de afijos.

RickieES commented 8 years ago

Pues no he encontrado muchos lemas que, comenzando por ex~, se pudieran sustituir por el prefijo en el lema original, significando ex "que ya no es". Antes de cerrar este issue (definitivamente, espero) :smile: os dejo que le echéis un ojo a los términos para proponer otras sustituciones. Yo he usado esta orden desde el directorio palabras:

grep -R -e ^ex.* | sort | less
RickieES commented 8 years ago

Doy por cerrado este issue y ya iremos añadiendo a otras palabras el nuevo prefijo según las identifiquemos o se nos notifiquen.