sbosio / rla-es

Recursos lingüísticos abiertos del español
Other
222 stars 49 forks source link

Update toponimos-mundo.txt #317

Closed Pompilos closed 1 month ago

Pompilos commented 1 year ago

Unifico # Hong Kong, cambio Checa a Chequia y añado: Acaya, Alabama, Alejandría, Amberes, Ámsterdam, Antioquía, Alepo, Aquitania, Arcadia, Argólida, Argos, Asur, Atenas, Babilonia, Bagdad, Basora, Beirut, Belén, Beocia, Bizancio, Bombay, Bósforo, Boston, Burdeos, Calabria, Calais, Cambridge, Campania, Canaán, Cantón, Capadocia, Cartago, Catania, Chequia, Chicago, Cícladas, Creta, Constantinopla, Córcega, Corfú, Corinto, Damasco, Delfos, Delos, Éfeso, Egeo, Elba, Epidauro, Esparta, Estambul, Éufrates, Galia, Ganges, Génova, Gomorra, Harvard, Himalaya, Jericó, Jerusalén, Judea, Lacedemonia, Laconia, Lepanto, Lesbos, Liguria, Lombardía, Londres, Lúxor, Magnesia, Mármara, Mesina, Mesopotamia, Micenas, Milán, Mileto, Nápoles, Nínive, Olimpia, Olimpo, Oxford, Padua, Palermo, Palmira, Parnaso, Peloponeso, Pérgamo, Persépolis, Persia, Platea, Provenza, Pompeya, Rodas, Salamina, Salónica, Samos, Samotracia, Santorini, Sardes, Sicilia, Sidón, Siracusa, Sodoma, Suez, Sumatra, Tebas, Tahití, Tarento, Taormina, Termópilas, Terranova, Tesalónica, Texas, Tigris, Tiro, Tracia, Trafalgar, Troya, Umbría, Ur, Uruk, Véneto, Viena.

olea commented 1 year ago

No podemos retirar Checa.

Pompilos commented 1 year ago

Pero ya figura en la línea 328 como # República Checa, como nombre compuesto que es. ¿Por qué no se puede retirar Checa? (Entiendo que entre los adjetivos figura el gentilicio checo/GS en minúscula, y que no lo dices por eso.)

Almorca commented 1 year ago

¿Has probado que cuando hay más de una palabra en la misma línea lo coge bien? Creo recordar que daba problemas.

olea commented 1 year ago

Pero ya figura en la línea 328 como # República Checa, como nombre compuesto que es.

El texto que empieza por la almohadilla (#) siempre es un comentario y es ignorado completamente por el procesador hunspell. Lo habrás visto en más de un sitio porque así explicamos el porqué de algo. Como sugería @Almorca, hunspell sólo permite una palabra por línea.

¿Por qué no se puede retirar Checa?

Pues, desde mi punto de vista, por completitud en el fichero correspondiente. Al final los duplicados que hubieran surgido acabarían siendo filtrados en el producto final. No imagino otro impacto perjudicial.

Pompilos commented 1 year ago

Entendí que la almohadilla (que está sistemáticamente en los nombre compuestos) era una forma de identificar a los compuestos, y que funcionaba. Si no funciona, tengo que restaurar Hong Kong (separados) y Checa. Procedo.

cosmoscalibur commented 1 month ago

@Pompilos , las almohadillas no son formas de incluir nombres compuestos. Lo que entiendo de estas almohadillas, y también las tengo así para los topónimos de Colombia, es que al tomar los listados de una fuente externa, me interesa saber que el topónimo está incluido, así no lo esté explícitamente como lema, dado que sus lemas individuales son a su vez sustantivos comunes, por lo que no es necesario añadirlos nuevamente, o si es en la misma línea, como indicación para saber de cual topónimo compuesto es el origen del lema.

Adicional, los códigos usados para compilar el diccionario, remueven las líneas que inician por la almohadilla. Esto se evidencia en herramientas/remover_comentarios.sh.