sbosio / rla-es

Recursos lingüísticos abiertos del español
Other
221 stars 49 forks source link

Propuestas para el diccionario gramatical #78

Open Almorca opened 8 years ago

Almorca commented 8 years ago

No me acuerdo si tenemos algo hecho con relación a un diccionario gramatical pero inicio este hilo con 2 propuestas para el mismo.

si mismo → sí mismo (tilde en la i) ¿porque → ¿Por qué

Probablemente este sea un bug a resolver a largo plazo pero lo dejo por aquí escrito por si alguien quiere ir mirándolo.

fitojb commented 8 years ago

si mismo → sí mismo (tilde en la i) ¿porque → ¿Por qué

Igual esas son cosas que se pueden añadir al archivo de corrección automática (por ejemplo, este cambio).

edittler commented 8 years ago

Actualmente no hay en desarrollo un corrector gramatical. De hecho, recuerdo haber leído en algún lado que es uno de los objetivos de RLA desarrollar uno.

No estoy seguro si es correcto agregar esos reemplazos en el autocorrector, creo que esa herramienta está más enfocada a corrección de errores de ortográficos de palabras (generalmente errores de tipeo), no de sentencias (gramática). En los casos que plantea @Almorca las palabras no tienen errores ortográficos, pero gramaticalmente no son correctas. Por cierto, el corrector automático tampoco está desarrollado por RLA.

fitojb commented 8 years ago

No sé por qué no es correcto añadir patrones gramaticales a los archivos de corrección automática. En todo caso, los que añadí a LibreOffice por convicción propia ya estaban incluidos en el componente equivalente de Word 2013. Sé que dichos archivos no tienen nada que ver con RLA, pero tan solo los mencioné como una opción alternativa —si quieres, una stopgap measure, una medida provisional— para proporcionar a los usuarios esta funcionalidad en lo que se desarrolla un componente especializado para la tarea.

Otra cosa que me viene a la mente ahora es LanguageTool. ¿No sería mejor contribuir a la mejora de ese proyecto en lugar de «reinventar la rueda», como se dice popularmente?

Son solo ideas —malas, probablemente— de alguien que no sabe programar. Saludos :smiley:

edittler commented 8 years ago

A costa de desviar más el tema del issue, quiero comentar que todas ideas son bienvenidas, y el hecho de que no sepas programas es positivo también, ya que nos otorgas un punto de vista diferente de las cosas.

No conocía LanguageTool, por lo que veo es una GUI de corrector ortográfico y gramatical. No sé de donde tomarán los diccionarios y reglas gramaticales, pero ya que es Código Abierto, podríamos colaborar. En cuanto tenga un tiempo libre, me contactaré con ellos.

Como nos hemos desviado del tema principal del issue, @fitojb cualquier duda o sugerencia que tengas, puedes crear un nuevo issue y lo seguimos discutiendo allí :wink:.

sbosio commented 8 years ago

LanguageTool utiliza el mismo diccionario nuestro para la corrección ortográfica, pero requiere una conversión previa al formato Morfologik, ya que no utiliza más Hunspell para la corrección ortográfica por razones de velocidad. El problema es que actualmente el diccionario de español que tiene integrado es únicamente el es_ES, pero en versión 0.2 (una de las versiones más antiguas). Habría que estudiar el proceso de conversión del formato para actualizar el diccionario a la última versión disponible. También sería interesante ver cómo se pueden generar diccionarios para las distintas variantes regionales del español, o si no es posible, ver de cambiar el es_ES por el es_ANY que es más abarcativo.

El 6 de abril de 2016, 1:05, Ezequiel notifications@github.com escribió:

A costa de desviar más el tema del issue, quiero comentar que todas ideas son bienvenidas, y el hecho de que no sepas programas es positivo también, ya que nos otorgas un punto de vista diferente de las cosas.

No conocía LanguageTool, por lo que veo es una GUI de corrector ortográfico y gramatical. No sé de donde tomarán los diccionarios y reglas gramaticales, pero ya que es Código Abierto, podríamos colaborar. En cuanto tenga un tiempo libre, me contactaré con ellos.

Como nos hemos desviado del tema principal del issue, @fitojb https://github.com/fitojb cualquier duda o sugerencia que tengas, puedes crear un nuevo issue y lo seguimos discutiendo allí [image: :wink:].

— You are receiving this because you are subscribed to this thread. Reply to this email directly or view it on GitHub https://github.com/sbosio/rla-es/issues/78#issuecomment-206110005

cosmoscalibur commented 7 years ago

Reavivo esta discusión dado que poco a poco me he informado sobre las características de hunspell. ¿Realmente se piensa llegar a este proyecto en algún momento? Mi pregunta va orientada a que sería necesario empezar a revisar las marcas especiales del analizador morfológico de hunspell para ser añadidas en los lemarios (y los lemas nuevos tener como requisito su inclusión con estas marcas). De otra forma, la conversión al formato de LT no sería de gran utilidad ya que la diferenciación que hay actualmente basada en las categorías más gruesas no es suficiente para lo requerido en LT.

sbosio commented 7 years ago

La idea inicial era poder generar la información para el etiquetado POS de acuerdo con la categoría gramatical donde se ubica el lema al "compilar" el diccionario, y añadir la información sobre cómo las reglas de afijos modifican esa categoría en el fichero de afijos.

Actualmente no hay nadie trabajando en eso. Y es casi un proyecto en sí mismo.

Es cierto lo que comentas sobre que únicamente quedarían los lemas separados en grandes categorías y faltaría especificar mejor cada uno en muchos casos que lo requieren, pero podría añadirse la información únicamente a los lemas que requieran un tratamiento especial, y si no especifican nada, se usa la etiqueta genérica asociada al fichero donde se encuentra alojado el lema. Por ejemplo, en el caso de los sustantivos. Por ejemplo, en el caso de los adjetivos, podrían etiquetarse automáticamente todos como calificativos (que son la mayoría), y únicamente ingresar la información específica para los numerales y gentilicios.

El 12 de septiembre de 2017, 12:24, Edward Yesid Villegas Pulgarin < notifications@github.com> escribió:

Reavivo esta discusión dado que poco a poco me he informado sobre las características de hunspell. ¿Realmente se piensa llegar a este proyecto en algún momento? Mi pregunta va orientada a que sería necesario empezar a revisar las marcas especiales del analizador morfológico de hunspell para ser añadidas en los lemarios (y los lemas nuevos tener como requisito su inclusión con estas marcas). De otra forma, la conversión al formato de LT no sería de gran utilidad ya que la diferenciación que hay actualmente basada en las categorías más gruesas no es suficiente para lo requerido en LT.

— You are receiving this because you commented. Reply to this email directly, view it on GitHub https://github.com/sbosio/rla-es/issues/78#issuecomment-328883177, or mute the thread https://github.com/notifications/unsubscribe-auth/ABO0GMjkdcz11yqX-7BhwuKeK95Y8xsQks5shqIlgaJpZM4H5b1N .