mozilla / firefox-translations-training

Training pipelines for Firefox Translations neural machine translation models
https://mozilla.github.io/firefox-translations-training/
Mozilla Public License 2.0
142 stars 31 forks source link

English to Serbian has low quality of the teacher models #765

Open eu9ene opened 1 month ago

eu9ene commented 1 month ago

After a quick investigation, I see that the original parallel corpus was filtered from 70M to 35M sentences.

Serbian is digraphic and uses both Latin and Cyrillic scripts.

I see that datasets like NLLB include translations in both scripts: https://opus.nlpl.eu/sample/en&sr/NLLB&v1/sample Our final training corpus also includes sentences in both scripts, which means fast-text language identification filter recognizes both of them:

shuf -n 20 public%2Fbuild%2Fcorpus.sr
Како се наводи, ова група је позната под називима "Стронциум", "Фенци бир" и "АПТ28".
Кад се све тачно поравна, сензор ће радити исправно.
-Sudbine gore od smrti, rekao bih, iz ruka potpuno æelavih malih zelenim ljudi upravo došlih iz svemira i željnih bijelih žena.
Како ћеш другачије да уђеш унутра?
Susedne države su Kostarika i Kolumbija.
HIV je nešto sa čime se živi.
Imam par dobrih ovamo, ovamo naprijed samo za vas.
Уосталом, већина земаља, посебно оне које се ослањају на туризам, снабдијевају туристе.
Odmah sam je i pročitao supruzi.
Kako da prestaneš da sabotiraš sebe
Ne laži Angelinu.
Особа са обманом величином може бити одбацујућа од оних који не прихватају њихово обмањујуће веровање или уверења.
Nema ništa loše u tišini.
"Ne, onaj koji vam je to uradio."
-Je li moguæe da je bila bolesnija nego što ste zakljuèili?
Bojiš se, èega se bojiš?
Па ипак, ако такви проблеми заиста постоје, онда може помоћи само доктор.
Neke od mojih najstarijih eksperimentalnih plantaža sada imaju preko 30 godina.
Voleo bi da nije.
Možete pokušati odbiti jednu maminu želju.

Based on Wikipedia Cyrillic script is more official. Google Translate also translates into Cyrillic script.

I think we should implement conversion of the training data from Latin to Cyrillic similar to Chinese (#741).

eu9ene commented 1 month ago

Also, Flores is in Cyrillic and mtdata_Neulab-tedtalks is in Latin :) So we should not use the latter for evals.