facebookresearch / LASER

Language-Agnostic SEntence Representations
Other
3.6k stars 463 forks source link

Data quality: wrong language #135

Closed valentincalomme closed 4 years ago

valentincalomme commented 4 years ago

After toying around with some of the data, I found out that quite some data comes from the wrong language. As an example, here are the top 100 lines from the German/English data (de-en.tsv).

1.2311322932663924      Gott ist nicht nur der Allmächtige, sondern auch der Erbarmende.        And He is The Almighty, The Compassionate."
1.2215745517824763      Er ist es, der barmherzig und gnädig ist.       He is the Most Gracious, the Most Merciful.
1.2110506684622269      Er ist ja der Vergebende, sich wieder Zuwendende und der Barmherzige“.  Truly, He is Oft-Forgiving, Most Merciful." .
1.2109903424810933      Gott, dem Allgütigen, Allmächtigen.     He is almighty, merciful, and infinitely beneficent.
1.2093065637518268      Und er sprach zu ihnen: Nehmt Platz!    Then he said: Sit down !
1.2057669721107953      Und siehe da, es ist und bleibt die Orlamünderin.       Thus it was, thus it is and always will be!
1.2055775640320276      (Der) Diener sagte: Der Herr.   She said — "O lord!
1.2009983554836525      Dedi fragt: „Was ist das Herz von Dir, oh Herrscher, mein Herr, so traurig!     He said: "O my Lord!
1.1999009476381894      Und was lehrt dich wissen, was die Nacht Al-Qadr ist?   Into the night, to save the day!"
1.1979762949371575      Und was weißt du, was Al-qadr-Nacht ist?!       He is famous for the novel The Day of Judgment (orig.
1.1962544404175282      Selig die Barmherzigen; denn sie werden Erbarmen finden.        By Thy mercy, O Most Merciful of the merciful!
1.1931279434746966      Aber Gott ist barmherzig und bereit zu vergeben.        For God is Forgiving, Merciful.
1.1930907045084256      Wenn ich einmal reich und tot bin (Erzählungen).        Wenn ich einmal reich und tot bin (Erzählungen).
1.1930606390750271      Sie sind aufgewachsen um die Arbeit des Herrn zu erfüllen."     They are raised up to do the Lord's work".
1.1927827951983812      Ist das Ihr Fahrrad, Mr. O’Brien?       Ist das Ihr Fahrrad Mr O’Brien?
1.1921635439480294      Im Nahmen Gottes, des barmherzigsten Erbarmers. (In the name of Allah, the most Beneficent, the most Merciful.)
1.1916860742840587      Online 2.4.2012) Schaut genau hin!      Online 2.4.2012) Schaut genau hin!
1.1916750833853054      Darin: „Der Krieg geht umher.   He said: "The war continues.
1.1915297390071145      Ich lese doch keine 110 Seiten, so seine Antwort.       "I do not read 110 pages", so his answer.
1.1909970532921987      Wir entdecken die Vögel (Wieso? Wir entdecken die Vögel (Wieso?
1.1903633698730265      Zu dem Bau der Kammerspiele und ihrem berühmtesten Schmuck.     Zu dem Bau der Kammerspiele und ihrem berühmtesten Schmuck".
1.1899980634351293      Er erschafft Himmel und Erde und bestimmt die äußersten Grenzen, wie den Horizont.      Is not He Who created the heavens and the earth able to create the like of them?
1.188066571145225       Das Beste aus 14 Ausgaben Revolver.     Das Beste aus 14 Ausgaben Revolver.
1.1878131661683642      Also wollten wir ihnen eine Botschaft senden.   So, we wanted to send them a message.
1.187797358117471       Und sie hauten aus den Bergen Häuser aus, im Trachten nach Sicherheit.  Such mountains are considered sacred, as they have become abodes to the deities on them.
1.186495857441276       Das ist besser für euch, wenn (anders) ihr (richtig zu urteilen) wißt.  That is better for you, if you only knew.
1.1863716422564803      Er sprach zu ihm: "Man müßte dich verbannen.    And he said, "You traitor.
1.1859526814798442      Der Mensch vor dem Unrecht.     Der Mensch vor dem Unrecht.
1.1849880415006786      Im Namen des barmherzigen und gnädigen Gottes.  In the name of God, the Compassionate, the Merciful.
1.1847847570515524      Sie sagten: "Was hast Du gemacht?       The Lord said, “What hast thou done?
1.1847705715876329      Somit verflucht er sie: „O verfluchte Mathilde! And they will cry: 'O Malik!
1.1843970996502067      Gott ist barmherzig und bereit zu vergeben“) dessen ersten Teil abrogiert habe. Verily, Allâh is the One Who forgives and accepts repentance, 
Most Merciful.
1.1840448790046867      Gott behandelt euch wie Söhne.  God is treating you as sons.
1.18325138816565        Alte und neue Inhalte – können wir das Web heute schon verstehen?       Alte und neue Inhalte – können wir das Web heute schon verstehen?     
1.1831916203304542      Ich habe fünf Töchter, also mag ich Lisa sehr.  I have five daughters, so I like Lisa a lot.
1.1831171868516548      Anthony hasste diese Art von Arbeit.    Anthony hated this type of work.
1.1830378119717206      Fürwahr, mein Herr ist allverzeihend, barmherzig" an-nafs al-lawwama ist das tadelnde Ich.      I said: "My lord is Merciful and Forgiving."  
1.1820174082970543      Ein bissel was geht immer Die italienische Angelegenheit Kalt erwischt! Ein bissel was geht immer Die italienische Angelegenheit Kalt erwischt!
1.1819625328412828      In: Applied Earth Science.      Applied Earth Science.
1.1812168520368895      Sie hat Himmel und Erde erschaffen und alles, was unter dem Himmel und auf der Erde lebt und steht“.    God created the heavens and the earth, and all they contain.
1.1806904498400832      Kurunta nimmt mit an der Versammlung der Götter nach Telipinus Rückkehr teil.   Kurunta takes part at the conference of gods after Telipinu's 
return.
1.1805286415521121      Und Wir entsandten ihn zu hunderttausend oder mehr (Menschen) 148.      And We sent him (on a mission) to a hundred thousand (men) or more.   
1.1804297615395833      Und er sprach zu ihm: Nimm deinen Schuldschein und schreib achtzig.     He said to him, ‘Take your bill, and write eighty.’
1.1798303987109078      Rabbi Johanan sagte: „Auch dort gibt es Gebirge, Niederung und Tal.     Rabbi Johanan said, ‘Still there is Mountain, Lowland, and Valley.    
1.179691385575771       Warum SPD? 7 Argumente für einen nachhaltigen Macht- und Politikwechsel.        Warum SPD? 7 Argumente für einen nachhaltigen Macht- und Politikwechsel.
1.1796903838269501      Zu Ahojka siehe oben den Abschnitt nazdar, ahoj, čao.   Zu Ahojka siehe oben den Abschnitt nazdar, ahoj, čao.
1.1793540053587346      Dir dienen wir, und dich bitten wir um Hilfe.   (O Lord of perfect attributes) we worship Thee alone and seek help from Thee alone.
1.1793362552815791      Teheran 2008) Der Tod hat dir nichts zu sagen.  Tehran 2008) Der Tod hat dir nichts zu sagen.
1.1787909944894568      Du siehst, nicht mal das hier kann ich ordentlich schreiben.    You see I can't even write this properly.
1.1786409033575995      Das Volk ist aufgebracht: „Ha, Frevlerin!       Then it will be said: 'O people!
1.1785812201406758      In: Auch heute noch nicht an Land.      In: Auch heute noch nicht an Land.
1.1780290491707595      Dabei erschafft er auch die Morgenröte und den Himmel, den er von der Erde trennt.      Creator of the heavens and the earth!
1.1778192239304384      Da sprach sie: „Das sollst du mir entgelten bei Bragis Becher (bragarfull.      She said, "Thou shalt pay for this at the bragarfull."
1.1772338096458086      Ich werde meinen Herrn für dich um Vergebung bitten.    I will ask forgiveness of my Lord for you."
1.1769743965586792      Mit sieben wollte ich Napoleon sein.    At seven I wanted to be Napoleon.
1.176780113587543       Im Himmel gibt’s kein Bier, Drum trinken wir es hier.   Im Himmel gibt’s kein Bier, Drum trinken wir es hier.
1.1762587289997395      Gute Nacht, denn dein Vater Johannes Junius sieht dich nimmermehr.      Good night, for your father Johannes Junius will never see you more.  
1.1760455984302824      Hat das Uralische Verwandte?    Hat das Uralische Verwandte ?
1.1758990746580193      56 (2003) und ich sah, op.      56 (2003) und ich sah, op.
1.175668811333696       In: Über Himmel und Erde – Festschrift für Erling von Mende.    (Allah,) The Originator of the heavens and the earth.
1.175508143791616       Wir möchten Ihnen mitteilen, daß wir morgen mit unseren Familien umgebracht werden.     We Wish to Inform You That Tomorrow We Will Be Killed 
with Our Families.
1.1755079839617113      Nie mehr Schule – Immer mehr Freude.    Nie mehr Schule - Immer mehr Freude.
1.17534428890279        Sie sollen ihn nicht haben: Heiteres aus ernster Zeit.  Sie sollen ihn nicht haben: Heiteres aus ernster Zeit.
1.1752635950677783      Südwestbank setzt auf Strategiewechsel. "Südwestbank setzt auf Strategiewechsel".
1.1747507853683727      Tritt nun hervor aus Deiner Jahresbleibe.       Tritt nun hervor aus Deiner Jahresbleibe.
1.1747200739441168      Die Israelis öffneten Champagner für alle.      The Israelis opened champagne for everybody.
1.1745775568692849      Ehrendoktorate von Privat-Unis sind wertlos.    "Ehrendoktorate von Privat-Unis sind wertlos".
1.17446330461783        Sebastian Kurz hat Wurzeln am Balkan.   "Sebastian Kurz hat Wurzeln am Balkan".
1.1739688374618822      Jost Trier, Warum studieren wir die Geschichte unserer Muttersprache?   Jost Trier, Warum studieren wir die Geschichte unserer Muttersprache? 
1.1735326721475736      68 S. Über die Vorrichtungen zur Rettung von Menschenleben bei See-Unfällen.    68 S. Über die Vorrichtungen zur Rettung von Menschenleben bei See-Unfällen.
1.1728218804573594      Ich bin Amerikaner, ich habe nur nicht die richtigen Papiere.   I'm an American, I just don't have the right papers.
1.1728086197691356      Der letzte Tag dieser Welt; in drei Gesängen.   Der letzte Tag dieser Welt; in drei Gesängen.
1.172738052318184       Albert sagt … Natur – aber nur!.        Albert sagt… Natur – aber nur!
1.1724897429493848      Gott ist auf keinen angewiesen und des Lobes würdig.    There is no God but the Merciful and Benevolent.
1.1722456961859382      ORF NÖ: Er entdeckte eine Kometen ...   ORF NÖ: Er entdeckte eine Kometen ...
1.171837418358063       Peter Turner: Einmal ins All und zurück.        Peter Turner: Einmal ins All und zurück.
1.171595073668929       Ein Buch in einer Serie über Menschen und Jahre.        A book in a series on people and years.
1.171576587781843       Das sagte al-Hasan: "Du hast gelogen.   He said, "You spoke the truth.
1.1714078809896982      Ein Flugblatt in jedes Haus, 1914 Als ich die bunte Mütze trug. Ein Flugblatt in jedes Haus, 1914 Als ich die bunte Mütze trug.
1.1713405260869552      Dies ist die Befragung über den Zustand eines edlen Mannes.     This is the questioning about the condition of a noble man.
1.1713042734471604      Renate Schubert: Ohne größeren Schaden? Renate Schubert: Ohne größeren Schaden?
1.1709362724717987      Der Meister sprach: ‚Womit soll man dann Güte vergelten?        In part, he said: Well then, who will pay?
1.1705097520394907      29 (1965) Erde, fruchtbar und schön.    29 (1965) Erde, fruchtbar und schön.
1.170063175120125       Markus Lanz: Und plötzlich guckst du bis zum lieben Gott.       Markus Lanz: Und plötzlich guckst du bis zum lieben Gott.
1.1699191232670603      Soviel Auto braucht der Mensch (1990) Was nach dem Auto kommt.  Soviel Auto braucht der Mensch (1990) Was nach dem Auto kommt.
1.1698750131054638      Martin Roos: Wenn die Höhe zur Hölle wird.      Martin Roos: Wenn die Höhe zur Hölle wird.
1.1695289255781096      Sogar 'Jake the Snake' kriegt nur 20 Prozent.   Even 'Jake the Snake' only gets 20 percent.
1.169345982758532       Wie wir die Erde vor uns schützen können.       Wie wir die Erde vor uns schützen können.
1.1691986036675304      Weil ich dort kein zweites Verdun will! Because I don't want a second Verdun!
1.1687097939763662      Endless Ocean auf der europäischen Touch!       Endless Ocean at the European Touch!
1.168061586004643       Der ICE und sonstige Zukunftsprojekte der DB.   "Der ICE und sonstige Zukunftsprojekte der DB".
1.1680425033953175      Kurze Abhandlung von Gott, dem Menschen und dessen Glück.       Korte Verhandeling van God, de mensch en deszelvs welstand (A Short Treatise on God, Man and His Well-Being).
1.167874248134204       Was heißt hier Volsinii?        Do you know what oruzo is?
1.1678276544246895      Der andere ist Villingen (Schwarzwald). The other is Villingen (Schwarzwald).
1.1677430391967978      Wißt Ihr, was Ihr tut?  Does she know what you're doing?
1.1677275351043406      Alfred Nehls: Aller Reichtum lag in der Erde.   Alfred Nehls: Aller Reichtum lag in der Erde.
1.1677001412287054      Der Fuero Real war unzweifelhaft seine Arbeit.  The Fuero Real was undoubtedly his work.
1.1675648555557767      Das hätte nie mit Sabbat geklappt. "    That would never have worked with Sabbat."
1.1674706215275361      2013:76:225–283.        2004;682:1–1295
1.167468166334078       Thorsten Capelle: Nicht nur Nacht- und Nebelaktionen.   Thorsten Capelle: Nicht nur Nacht- und Nebelaktionen.

It seems that there is quite some dialogue data, where people narrate things in other languages, leading to some English sentences being German and so on.

After some preliminary research using langdetect from Google, it appears that about 7% of the lines contain text coming from the wrong language.

hoschwenk commented 4 years ago

We use fastText on each sentence to detect the language. As any statistical approach, it makes errors .... However, we only used the highest scoring language. In the next version, we will also threshold the likelihood of the detected language to exlcude cases when LID is not sure, e.g. P("en")=0.34 P("de")=0.33 P("da")=0.32 In that (constructed) case, it would be better to not consider the sentence as English. This happened in the example you cite.

hoschwenk commented 4 years ago

The WMT 2020 eval provide the WikiMatrix bitexts with an additional language identification (by the langid tool). You may consider this version of the bitexts.

valentincalomme commented 4 years ago

Great, thanks! Would be useful to have this added to the documentation. I reckon you're referring to this dataset: http://data.statmt.org/wmt20/translation-task/WikiMatrix/ ?