apertium / apertium-spa-cat

Apertium translation pair for Spanish and Catalan
GNU General Public License v2.0
6 stars 4 forks source link

Regressió en el processament de línies #30

Open jordimas opened 2 years ago

jordimas commented 2 years ago

Context: estava retraduint el corpus Europarl del castellà al català (que usem per entrenar el neuronal) per a beneficiar-nos de les millores en els últims mesos

Estava comparant la traducció antiga feta fa un mesos amb Apertium amb la nova.

En una certa part del fitxer les frases es desmanegen, he tallat aquest pedaç que ho permet reproduir:

es.txt ca.txt

Linea 6 cap endavant:

. Señor Presidente, en primer lugar quiero felicitar al Sr. Turmes por el informe que ha preparado, dado que será de una gran utilidad para los trabajos de la Comisión. Quiero recordar que la Comisión aprobó en abril del año pasado un documento de trabajo sobre la electricidad procedente de energías renovables, cuyo objetivo principal consistía en presentar una visión completa de los programas de apoyo de los distintos Estados en materia de energías renovables, así como en destacar algunas conclusiones y opciones posibles para la adopción de medidas comunitarias en este terreno. En aquella ocasión, la Comisión indicó, en su documento de trabajo, que no había llegado a una conclusión definitiva y que se adoptaría una decisión final sobre todos los asuntos planteados a la luz de las reacciones suscitadas por el propio documento.

Senyor President, en primer lloc vull felicitar el Sr. *Turmes per l'informe que ha preparat, atès que serà d'una gran utilitat per als treballs de la Comissió. Vull recordar que la Comissió va aprovar a l'abril de l'any passat un document de treball sobre l'electricitat procedent d'energies renovables, l'objectiu principal de les quals consistia a presentar una visió completa dels programes de suport dels diferents Estats en matèria d'energies renovables, així com a destacar algunes conclusions i opcions possibles per a l'adopció de mesures comunitàries en aquest terreny. En aquella ocasió, la Comissió va indicar, en el seu document de treball, que no havia arribat a una conclusió definitiva i que s'adoptaria una decisió final sobre tots els assumptes plantejats a la llum de les reaccions suscitades pel propi document..

Llavors a partir d'aquí succeix bastant i es trenquen moltes traduccions. Això és una regressió i abans no pasava. Si calen més detalls m'ho dieu.

jaumeortola commented 2 years ago

Ho puc reproduir. En la línia 4, hi ha dos caràcters de soft hyphen (0xAD). Eliminant-los desapareix el problema. S'hauria d'obrir un issue perquè ho arreglin.

He mirat la meva versió corregida de l'Europarl en castellà i aquests guions invisibles no hi són. De fet, hi ha guions visibles, que és el que correspon a la frase. Per a generar corpus hauries d'usar la versió amb correccions. No sé si la tens. Te l'envio.