Softcatala / translation-memory-tools

A set of tools to build, maintain and use translation memories
https://www.softcatala.org/recursos/memories/
29 stars 17 forks source link

Baixar les memòries de translatewiki #415

Open jordimas opened 1 month ago

jordimas commented 1 month ago

Josep M. Ferrer:

Fa temps es va crear una tasca sol·licitant un bolcat de les traduccions de translatewiki.net (https://phabricator.wikimedia.org/T299493), ja que les extraccions online destinades a les MT fallaven per un consum excessiu de recursos. Finalment, ahir es va crear el primer bolcat d'aquestes traduccions:

Jordi Mas:

Un primer problema que hi ha es que això és un bolcat de tot el que tenen a la platform de traducció mentre que nosaltres organizem les coses per projectes. Hi ha enllaços tipus "https://translatewiki.net/wiki/Special:ExportTranslations a diversos projectes

Una cosa que es podria fer també és cachejar el fitxer perquè només es baixi un cop durant l'execució, i que llavors cada projecte el referenciï amb el path que vol extraure. Això ens permet tenir integrar-ho a les memòries, només baixar-lo un cop i encara tenir els fitxers corresponents per projecte. Efectivament, el problema és que el bolcat té tots els projectes de la plataforma de traducció, i tots els idiomes de cada projecte. Per aquest motiu és un fitxer enorme. Però cal dir que cadascun dels projectes està en un subdirectori de l'arxiu, i per tant, és perfectament individualitzable. És a dir, es poden aconseguir fitxers individuals del tipus "Translatewiki-adiutor-ca", "Translatewiki-ajapaik-flutter-app-ca", "Translatewiki-ajapaik-web-ca",... "Translatewiki-xtools-ca". Com que l'arxiu del bolcat només es genera cada 6 mesos, penso que no té sentit baixar-lo en cada execució de les MT (un cop cada setmana com a mínim). I d'aquí la meva proposta de fer una única baixada i tractament del bolcat cada 6 mesos. Potser seria millor parlar-ho en alguna reunió mensual.