Robust Open-Vocabulary Translation from Visual Text Representations

e4exp commented 3 years ago

https://arxiv.org/abs/2104.08211
2021

機械翻訳モデルは、個別の語彙を持っており、一般的には「オープンボキャブラリー」を達成するためにサブワードのセグメンテーション技術を使用しています。このアプローチは、一貫性のある正しいユニコード配列に依存しているため、一般的な種類のノイズや変動によるモデルの劣化を招きやすくなります。本研究では、人間の言語処理のロバスト性にヒントを得て、視覚的なテキスト表現の使用を提案する。これは、有限のテキスト埋め込みセットを使用せず、視覚的にレンダリングされたテキストを処理することで連続的な語彙を作成するものである。視覚的テキスト表現を用いたモデルは、クリーンなTEDデータセットにおいて、テキストベースラインと同等かそれに近い性能を示すことができました。さらに重要なことは、視覚的な埋め込みを用いたモデルは、様々な種類のノイズに対して非常に頑健であることを示していることです。例えば、文字を並べ替えたドイツ語と英語のタスクでは、サブワードモデルが1.9に低下するところを25.9BLEUを達成しています。

e4exp commented 3 years ago

1 はじめに

機械翻訳モデルは、文字の入れ替えやスペルミスなどのノイズがあると、すぐに劣化してしまいます（Belinkov and Bisk, 2018; Khayrallah and Koehn, 2018）。これらの問題は、正規化、ノイズのある合成トレーニングデータの追加（Vaibhav et al.2019）、または単により大きなデータ設定に移行するなどの技術で軽減することができます。しかし、ノイズや変動の種類は、簡単に列挙したり正規化したりすることができないほど多く存在し、それらの組み合わせは、慎重な検討を必要としたり、モデルのトレーニングプロセスに複雑さを加えたりするだけでなく、対処しようとしても問題となることがよくあります。このような脆さの理由の一つは、MTシステムがオープンボキャブラリー問題の解決策としてサブワードセグメンテーション（Sennrich et al.2016）に依存していることです。対照的に人間は、テキストのパーミュテーション（Rayner et al.2006）や、l33tspeakのような視覚的に類似した入力に対して驚くほど頑健です（Perea et al.2008）。この頑健性の原因の1つは、人間がテキストを個別のユニコード表現からではなく、視覚的に処理していることであり、モデルにこの種の表現へのアクセスを提供することで、より人間に近い頑健性が得られる可能性があると考えられる。そこで私たちは、翻訳入力に視覚的なテキスト表現を用いることを提案します。翻訳モデルはテキストを使用しますが、サブワードから埋め込みマトリックスを作成する代わりに、テキストを画像としてレンダリングし、画像を一連のオーバーラップするスライスに分割し、光学式文字認識（OCR）の技術を使用して表現を作成します。それ以外の翻訳アーキテクチャは変更しません。これらのモデルには、入力に関する視覚的な情報と分布的な情報の両方が含まれているため、さまざまな種類のノイズが存在する場合でも、ロバストで一般化可能な入力表現を学習できる可能性があります。

本論文では、ビジュアル・テキスト・エンベッダー（セクション2）を紹介した後、いくつかのスクリプトを持つ7つの言語ペアの小データ・シナリオの結果を報告する。その結果、特にラテン文字を使用する言語において、ビジュアルテキスト表現を用いた翻訳モデルがサブワードモデル（セクション4）と同等かそれに近い性能を発揮することがわかった。さらに、様々なノイズを含むデータシナリオを調査し、ビジュアルテキストモデルが誘導ノイズに対して顕著なロバスト性を示すことを示した（セクション5）。要約すると、我々は

人間のテキスト処理からヒントを得て、頑健性を高め、データの前処理を簡略化する手段として、視覚的な表現を使用することを提案する
さまざまな言語や文字を対象とした機械翻訳において、視覚的な表現の可能性を実証する
合成および自然のノイズに対するモデルの頑健性が大幅に向上することを示す

e4exp commented 3 years ago

7 結論

連続的なオープンボキャブラリー翻訳のために，視覚的にレンダリングされたテキストを導入した． 7つの言語ペアを対象にTEDという低リソース環境で学習した我々のモデルは、テキストベースの表現に近い、あるいはそれに匹敵する性能を示すことができました。さらに、視覚的テキストモデルは、視覚的に類似した文字など、さまざまな種類の誘導ノイズに対してより頑健であることも示しました。このアプローチは非常に有望であると考えています。今回の実験では、機械翻訳だけを対象に、このアプローチの可能性を探り始めたに過ぎません。次のステップとしては、ビジュアルテキストのアーキテクチャとパラメータの最適化について深く検討し、実験をより大きなデータのシナリオに拡張することが重要だと考えています。このアプローチでは、テキストベースのセグメンテーションや個別のボキャブラリを必要としないため、ビジュアルテキストモデルは、音訳や正規化を必要とせず、新しい言語やスクリプトに適用することができます。これを受けて、この表現方法は言語IDなどの他のNLPタスクにも成功すると考えています（Caswell et al.

e4exp / paper_manager_abstract

Robust Open-Vocabulary Translation from Visual Text Representations #445