sbosio / rla-es

Recursos lingüísticos abiertos del español
Other
220 stars 49 forks source link

Revisión y discusión sobre entidades territoriales #38

Closed RickieES closed 8 years ago

RickieES commented 8 years ago

Mientras acometo el issue #36, veo que hay algunos contenidos en NombresPropiosSiglas.txt que no están en el nuevo archivo entidades-territoriales.txt. Algunos ejemplos:

Yo creo que esos nombres deberían figurar en entidades-territoriales.txt. ¿Qué opináis?

Además, he detectado un par de errores en este nuevo archivo (p.e.: "Malí" en lugar de "Mali").

También he visto que en toponimos/l10n/es_AR/entidades-territoriales.txt las palabras no están ordenadas alfabéticamente, como tenemos en todos los demás archivos (que yo sepa).

Por último, en ambos archivos falta la cabecera de licencia. Cito a @sbosio porque me ha surgido la duda de quién debe figurar en la licencia. De esta página se deduce que habría que hacer figurar a todos los autores que hayan contribuido al archivo, pero me parece una locura. En estos nuevos archivos, no sé si el Copyright debe ser de Santiago, de @EquisTango o de ambos. Os animos a comentar vuestras opiniones mientras voy avanzando con otros issues. :smile:

(1) http://www.gnu.org/licenses/gpl-howto.html

RickieES commented 8 years ago

Ah, otro par de dudas que me surgen. Tenemos nombres de países como "Sri Lanka", "Trinidad y Tobago", "Ciudad del Vaticano"... En NombresPropiosSiglas.txt figuran las palabras sueltas, mientras que en entidades-territoriales.txt figuran en la misma línea y no estoy muy seguro de cuál de las dos formas es más correcta, no ya desde un punto de vista sintáctico o semántico, sino a efectos de la generación del diccionario en sí.

Y la otra duda, que más que nada es confirmación: en NombresPropiosSiglas.txt tenemos "Soviética" y "Yugoslavia", mientras que en entidades-territoriales.txt no porque ya no existen como países, pero ¿no deberíamos moverlos también a este último archivo?

Voy a subir una primera tanda de cambios a NombresPropiosSiglas.txt. En ella, además de suprimir bastantes países que están en entidades-territoriales.txt, he marcado todas las entradas que me generan dudas de uno u otro tipo (algunas no tienen nada que ver con países como, por ejemplo, "CDs" y "DVDs"). Probablemente debamos abrir otro issue separado para esas correcciones.

sbosio commented 8 years ago

Vamos por partes, como decía Jack el destripador.

Creo que al existir un fichero de entidades territoriales, sería lógico que todos los nombres propios referidos a topónimos se movieran a ese fichero. Igual, no es indispensable. Digo esto en el sentido que los duplicados en el fichero de diccionario compilado se eliminan durante la compilación. El único problema aquí, sería que si hay que modificar un lema, hay que estar viendo en cuál de los dos ficheros aparece, o modificarlo en los dos, si apareciera en ambos. También el ordenamiento es una cuestión básica de practicidad al buscar un lema en particular (más que nada visualmente en la pantalla, obviamente que la búsqueda de los editores de texto encuentra el lema sin importar dónde se ubique dentro del fichero). Ordenar el fichero en cualquier plataforma Linux es facilísimo con el comando: 'sort -u < fichero_de_entrada_desordenado.txt > fichero_de_salida_ordenado.txt'. Incluso la opción '-u' (unique) filtra duplicados si los hubiera.

Los nombres compuestos como "Sri Lanka", "Trinidad y Tobago", etc. deben descomponerse en los lemas básicos (uno por línea), y eliminar los lemas comunes ya existentes, como el conector 'y', o la contracción 'del', e incluso 'Ciudad' se podría eliminar, ya que existe como nombre femenino y siempre se va a validar, aunque quizás convendría dejarlo si lo tomamos como que en este fichero tiene un valor sintáctico distinto ya que forma parte de un nombre propio compuesto.

El diccionario ortográfico no tiene nociones de semántica, el espacio en blanco se considera un caracter de separación para las aplicaciones que usan Hunspell. Por lo cual OpenOffice/LibreOffice verificarán cada lema por separado (p. ej. verificaría "Sri" por un lado y "Lanka" por otro). Hunspell usa espacios en el fichero de diccionarios para separar los lemas etiquetados de la información sintáctica opcional en los nuevos formatos, por lo cual "Lanka" nunca se verificaría como un lema válido está después del espacio en blanco.

La funcionalidad de marcar un error si yo escribo "Lanka Sri" en vez de "Sri Lanka" es del corrector semántico, cosa que nuestro diccionario no es.

Con respecto a los encabezados, yo propondría pasar todos los "copyright" a nombre del proyecto, porque hace tiempo que no soy yo solo, sino que más bien soy de los que menos contribuye últimamente, :-D. Pero no sé si eso tiene alguna validez, porque "Recursos lingüísticos abiertos del español" no existe como entidad jurídica, es el nombre de fantasía del proyecto. No sé si @olea tenga más idea al respecto. Yo en la parte legal hago agua. Pero podemos agregar un fichero de colaboradores y en la medida que alguien contribuya, se añade su nombre al fichero.

Las contribuciones realizadas estimo que, si se pueden considerar como trabajos derivados del proyecto (son pull requests de forks de este proyecto), cuya licencia es GPL, tienen que hacerse obligatoriamente utilizando esa licencia. El único inconveniente es que los paquetes compilados se distribuyen después con la triple licencia GPL/LGPL/MPL. Esto no era problema para mí, porque siendo el que tenía el "copyright", tenía la potestad de cambiar el licenciamiento de cualquier trabajo derivado, y era obligatorio hacerlo así para poder incorporar el diccionario en la distribución de OpenOffice.org en su momento que exigía la LGPL (supongo que debido a que era propiedad de Sun Microsystems en esos viejos tiempos). Precisamente este proyecto lo inicié desde cero yo hace tanto porque en aquel momento el único diccionario existente para OOo era uno que se distribuía únicamente con licencia GPL, y no se podía empaquetar junto con el paquete ofimático, lo que obligaba a los usuarios a sí o sí tener que obtenerlo e instalarlo manualmente después. Quizás haya que aclarar esto en el README del Github, que cualquier contribución al proyecto debe realizarse bajo una licencia GPL, sino no se acepta. Actualmente no tengo idea cuáles son las exigencias de LibO, Apache OO o Mozilla para integrar las extensiones en sus productos.

El tema con el 'copyright' entonces es este, o bien se considera que el que contribuye "cede" el copyright, no a mí, por eso propongo el cambio en las cabeceras por el nombre del proyecto, que no me interesa quedarme con el trabajo de nadie, sino al proyecto, o debe ser un "copyright" conjunto de la persona que contribuye y del proyecto, estimo yo, para que mantenga el proyecto la potestad de poder cambiar el licenciamiento en las extensiones compiladas. O la persona que contribuye debe aceptar que al contribuir, le otorga al proyecto la potestad de cambiar el esquema de licenciamiento sobre su contribución. No tengo idea de si con una declaración en el README del Github sería suficiente para este fin.

Saludos,

Santiago

El 27 de octubre de 2015, 20:21, Ricardo Palomares <notifications@github.com

escribió:

Ah, otro par de dudas que me surgen. Tenemos nombres de países como "Sri Lanka", "Trinidad y Tobago", "Ciudad del Vaticano"... En NombresPropiosSiglas.txt figuran las palabras sueltas, mientras que en entidades-territoriales.txt figuran en la misma línea y no estoy muy seguro de cuál de las dos formas es más correcta, no ya desde un punto de vista sintáctico o semántico, sino a efectos de la generación del diccionario en sí.

Y la otra duda, que más que nada es confirmación: en NombresPropiosSiglas.txt tenemos "Soviética" y "Yugoslavia", mientras que en entidades-territoriales.txt no porque ya no existen como países, pero ¿no deberíamos moverlos también a este último archivo?

Voy a subir una primera tanda de cambios a NombresPropiosSiglas.txt. En ella, además de suprimir bastantes países que están en entidades-territoriales.txt, he marcado todas las entradas que me generan dudas de uno u otro tipo (algunas no tienen nada que ver con países como, por ejemplo, "CDs" y "DVDs"). Probablemente debamos abrir otro issue separado para esas correcciones.

— Reply to this email directly or view it on GitHub https://github.com/sbosio/rla-es/issues/38#issuecomment-151673316.

RickieES commented 8 years ago

Concluido con el commit anterior.

eksperimental commented 8 years ago

@sbosio seria recomendable que crees un "Issue" para tema de la licencia, quiza copiando y pegando lo que escribiste al respecto, ya que esta Issue se cerró.