mozilla / translations

The code, training pipeline, and models that power Firefox Translations
https://mozilla.github.io/translations/
Mozilla Public License 2.0
154 stars 33 forks source link

Add a cleaning rule for URL names, such as Amazon.com -> Amazon.it #758

Open gregtatum opened 3 months ago

gregtatum commented 3 months ago

Similar to #736, we should discard sentences that translate the domain suffix of a website, like Amazon.com -> Amazon.it

With a regex such as /[a-z]+\.com\b/ we could identify a URL on the English side, and ensure that it's matched on the other language.

Edit: Also, we have other English speaking countries to consider, like Amazon.co.uk

gregtatum commented 3 months ago

From: https://bugzilla.mozilla.org/show_bug.cgi?id=1862017

If you visit

https://www.amazon.it/s?k=test

You'll get text like this:

Ci dispiace Si è verificato un errore quando abbiamo tentato di elaborare la richiesta. Stiamo lavorando al problema e ci aspettiamo di risolverlo a breve. Si prega di notare che se stavi effettuando un ordine, non sarà stato elaborato per il momento. Per favore riprova più tardi.

Ci scusiamo per l'inconveniente.

Clicca qui per tornare alla home page di Amazon.it

and when you translate it, the hom page is changed to Amazon.co.uk

If you don't see the error, try it in a private window.

eu9ene commented 3 months ago

Related to #736