Driven by the goal of eradicating language barriers on a global scale, machine translation has solidified itself as a key focus of artificial intelligence research today. However, such efforts have coalesced around a small subset of languages, leaving behind the vast majority of mostly low-resource languages. What does it take to break the 200 language barrier while ensuring safe, high quality results, all while keeping ethical considerations in mind? In No Language Left Behind, we took on this challenge by first contextualizing the need for low-resource language translation support through exploratory interviews with native speakers. Then, we created datasets and models aimed at narrowing the performance gap between low and high-resource languages. More specifically, we developed a conditional compute model based on Sparsely Gated Mixture of Experts that is trained on data obtained with novel and effective data mining techniques tailored for low-resource languages. We propose multiple architectural and training improvements to counteract overfitting while training on thousands of tasks. Critically, we evaluated the performance of over 40,000 different translation directions using a human-translated benchmark, Flores-200, and combined human evaluation with a novel toxicity benchmark covering all languages in Flores-200 to assess translation safety. Our model achieves an improvement of 44% BLEU relative to the previous state-of-the-art, laying important groundwork towards realizing a universal translation system. Finally, we open source all contributions described in this work, accessible at https://github.com/facebookresearch/fairseq/tree/nllb.
Translation (by gpt-4o-mini)
言語の壁を世界規模で排除することを目指して、機械翻訳は今日の人工知能研究の重要な焦点として確立されている。しかし、そのような努力は少数の言語に集中しており、主にリソースが乏しい言語の大多数は取り残されている。200の言語の壁を打破し、安全で高品質な結果を確保しつつ、倫理的な配慮を忘れないためには何が必要なのか?「No Language Left Behind」では、まずネイティブスピーカーとの探索的インタビューを通じて、リソースが乏しい言語の翻訳支援の必要性を文脈化することからこの課題に取り組んだ。次に、リソースが乏しい言語と豊富な言語のパフォーマンスギャップを縮小することを目的としたデータセットとモデルを作成した。具体的には、リソースが乏しい言語に特化した新しい効果的なデータマイニング技術を用いて取得したデータで訓練された、スパースゲーテッドミクスチャーオブエキスパートに基づく条件付き計算モデルを開発した。数千のタスクで訓練する際の過学習に対抗するために、複数のアーキテクチャと訓練の改善を提案する。重要なことに、私たちは人間翻訳のベンチマークであるFlores-200を使用して、40,000以上の異なる翻訳方向のパフォーマンスを評価し、人間評価とFlores-200のすべての言語をカバーする新しい毒性ベンチマークを組み合わせて翻訳の安全性を評価した。私たちのモデルは、従来の最先端技術に対して44%のBLEUの改善を達成し、普遍的な翻訳システムの実現に向けた重要な基盤を築いた。最後に、本研究で述べたすべての貢献をオープンソースとして公開し、https://github.com/facebookresearch/fairseq/tree/nllb でアクセス可能にした。
Summary (by gpt-4o-mini)
「No Language Left Behind」プロジェクトでは、リソースが乏しい言語の機械翻訳を改善するために、ネイティブスピーカーとのインタビューを通じて必要性を明らかにし、データセットとモデルを開発。新しいデータマイニング技術を用いた条件付き計算モデルを提案し、過学習を防ぐための訓練改善を行った。Flores-200ベンチマークで40,000以上の翻訳方向を評価し、従来技術に対して44%のBLEU改善を達成。全ての成果はオープンソースとして公開。
URL
Affiliations
Abstract
Translation (by gpt-4o-mini)
Summary (by gpt-4o-mini)