e4exp / paper_manager_abstract

0 stars 0 forks source link

Rethinking Text Line Recognition Models #393

Open e4exp opened 3 years ago

e4exp commented 3 years ago

本論文では、テキストライン認識の問題を研究しています。 シーンテキストや手書き文書のような特定のドメインを対象とした多くのアプローチとは異なり、ソースや入力モダリティに関わらず、あらゆる画像からテキストを抽出できる普遍的なアーキテクチャを開発するという一般的な問題を調査する。 本研究では、2つのデコーダファミリー(Connectionist Temporal ClassificationとTransformer)と3つのエンコーダモジュール(Bidirectional LSTMs, Self-Attention, and GRCLs)を検討し、広く使われているシーンテキストと手書きテキストの公開データセットで、その精度と性能を比較する大規模な実験を行った。 その結果、これまであまり注目されてこなかった組み合わせ、すなわちSelf-AttentionエンコーダとCTCデコーダを外部言語モデルと組み合わせ、公開データと内部データの両方で学習させた場合、精度と計算量の点で他のモデルよりも優れていることがわかった。 一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を扱うことができ、これはユニバーサルライン認識に必要な条件です。 また、複数のソースから収集した内部データセットを用いて、線分認識装置の精度を評価する上で、現在の公開データセットの限界を明らかにしました。 これは、画像の幅と配列の長さの分布が比較的狭いため、長い線の転写に適用した場合のTransformerアプローチの品質劣化を観察できないためです。

e4exp commented 3 years ago

1 はじめに

光学式文字認識(OCR)は、視覚的検索、文書のデジタル化、自律走行車、拡張現実(視覚的翻訳など)など、幅広い実用的なアプリケーションの重要な要素であり、視覚障害者の環境意識を高めることもできます[38]。 この10年間で、OCRモデルの高度化が進み、様々な領域で精度が著しく向上しています[17, 3, 8, 33]。 従来のアプローチでは、テキスト抽出タスクを「テキスト検出」と「テキスト認識」という2つのサブ問題に分けて考えるのが一般的です。 テキスト検出アルゴリズムは,入力画像内のテキストインスタンス(単語や行)を検出しようとするものであり,テキスト認識モデルは,切り取られて整流されたテキストパッチからテキストコンテンツをデコードしようとするものである. シーン(スパース)テキストの場合、テキスト検出手法の大半は単語レベルで動作します。 これは、この分野の公開データセットのほとんどが単語レベルのラベリングしか提供していないことに起因しています。

一方、手書きや密集したテキストの認識システムでは、処理ユニットとして行を採用するのが一般的である[3, 8, 24]。 シーンテキスト認識のための単語レベルのシステムが普及しているにもかかわらず、ワールドレベルで操作することは、多くのスクリプトをサポートする汎用システムにとっては最適ではない可能性がある。 まず、手書きのテキストでは、隣接する単語の検出ボックスが部分的に重なる可能性があるため、単語を分離するのは必ずしも簡単ではありません。 第二に、密度の高い印刷文書では、大量の小さくて密集した単語を確実に検出することは困難である。 第三に、中国語、日本語、韓国語のようにスペースで単語を区切らないスクリプトでは、検出器が単語を分離するのは困難です。 最後に、単語レベルのOCRモデルでは、句読点や発音記号を見逃す可能性が高い。 本研究では、密度の高い印刷物や手書きのテキスト、および疎なシーンテキストを抽出できる、汎用的なラインベースのOCRパイプラインを検討し、このシナリオにおける最適なテキストライン認識(TLR)モデルを決定することを目的としています。

このようなパイプラインでは、別のテキスト検出モデルが、画像内のすべてのテキスト行の検出と整流を担当します。 このステップは本稿の範囲外であるため、[11]のような、検出と修正が主な焦点となっている、不規則なシーンのテキストを含む公開データセットは、ここでの分析から除外します。 ラインベースのOCRシステムでは、認識器は任意の長さのテキストラインを効果的かつ効率的に処理する必要がある。 この課題は、これまでの最新の単語ベースのモデルでは見過ごされてきました。 公開されているデータセット(主に単語レベル)は、画像の幅と配列の長さの分布が比較的狭い(図5参照)。 同時に、TLRモデルの設計、性能、速度は、これらの変数に依存します。これらの問題を理解するために、我々は、幅広い長さの例を含む内部データセットで学習されたTLRモデルを研究した。 また、シンボルのカバー率がはるかに高い(公開データセットの大半で使用されている英数字に比べて、ラテン文字と特殊文字のシンボルのほとんどを含む675クラス)。 その結果,画像のチャンキングなどの技術を用いることで,サイズが大きく異なる例題の課題を大幅に軽減できることがわかった. 本研究では、TLRのためのいくつかのアーキテクチャを検討し、それらの精度と性能を内部データセットで比較しました。 この研究から、汎用的なラインレベルのTLRシステムを設計するための具体的な提案が得られました。 その結果,Self-Attentionエンコーダ[51]とCTC(Connectionist Temporal Classification)デコーダ[16]を使用し,明示的な言語モデルと組み合わせたモデルが,最大のテキスト行認識精度と最小の複雑さを兼ね備えた他のすべてのモデルよりも優れていることがわかった. このモデルアーキテクチャは,我々の知る限り,これまでに文献で研究されたことはありません. また、機械学習の分野では、リカレントネットワークを廃止してアテンションモジュールを採用する傾向にあります。 より一般的には、自己注意メカニズムに基づくエンコーダモジュールは、デコーダの種類にかかわらず、エンコーダの比較において勝者となります。 広く利用されている一般的なデータセット(印刷、手書き、シーンテキストなど)での性能を報告する。 また、パブリックデータセットのみでこのモデルを学習した結果も報告しており、このような限定された学習セットを使用した場合でも、精度は広く使用されているTransformerベースのアプローチと同等であり、非常に複雑な最先端のモデルにも遠く及ばないことを示している。

要約すると、我々の貢献は4つあります。

e4exp commented 3 years ago

image image image image image image image image image

e4exp commented 3 years ago

6 結論

本研究では、代表的なエンコーダ/デコーダ・アーキテクチャのユニバーサル・テキストライン・レコグナイザとしての性能を調査した。 デコーダの比較では、言語モデルと組み合わせたCTCが全体的に優れた性能を発揮することがわかりました。 言語モデルがない場合、CTCとTransformerは拮抗しており、CTCが優位な場合(GRCL)とTransformerが優位な場合(BiLSTM)があります。 一方、エンコーダの比較では、全体的にSelfAttentionが勝っており、LMがない場合はどちらのデコーダも同様の精度を示しました。 興味深いことに、研究されていないSelf-Attention/CTC + LMモデルが、我々のベストである。 [13]は、注意力ベースのデコーダが外部言語モデルからまだ恩恵を受けられることを示しています。 外部言語モデルとトランスフォーマーデコーダの有効性の調査は今後の課題です。

また、例文の分布に長い画像が含まれていることに起因する問題についても検討しました。 少なくとも、効率と性能という2つの新しい側面を考慮する必要があります。 長い画像は、画像の長さに応じて二次的にスケーリングされるため、Self-Attentionエンコーダーを使ったモデルの効率に影響を与えます。 この問題は、CTCモデルの場合、画像をチャンキングすることで性能を落とさずに解決できることを示しました。 最大幅が固定された画像で学習すると、Transformerデコーダを利用したモデルでは、長い画像での性能に影響が出ます。 この問題は、画像のサイズを学習幅に合わせて変更することで、完全には解決しないものの、軽減することができる