e4exp / paper_manager_abstract

0 stars 0 forks source link

RewriteNet: Realistic Scene Text Image Generation via Editing Text in Real-world Image #599

Open e4exp opened 2 years ago

e4exp commented 2 years ago

シーン画像中のテキストを、オリジナルのスタイルを維持したまま目的のテキストに変換するシーンテキスト編集(STE)は、テキストとスタイルの間に複雑な介在があるため、困難な作業である。 この課題を解決するために、我々は、視覚的な情報だけでなく、テキスト情報も利用する新しい表現学習ベースのSTEモデル(RewriteNet)を提案します。 我々は、シーンのテキスト画像は、コンテンツとスタイルの特徴に分解できると仮定する。 前者はテキスト情報を表し、スタイルはフォント、配置、背景などのシーンテキストの特徴を表す。 この仮定の下、本研究では、テキスト情報によって学習されたシーンテキスト認識器を導入することで、入力画像のコンテンツとスタイルの特徴を別々に符号化する方法を提案する。 そして、原画像のスタイル特徴と対象テキストの内容特徴を組み合わせて、テキスト編集画像を生成する。 学習段階で合成画像しか利用できない従来の研究とは異なり、合成データと実データの間の領域ギャップを埋める自己教師付き学習スキームを提案することで、実世界の画像も利用しています。 実験の結果、RewriteNetは他の比較対象よりも定量的・定性的に優れた性能を達成しました。 さらに、テキスト情報と自己教師付き学習スキームを用いることで、テキスト切り替え性能が向上することを検証しました。 実装とデータセットは公開される予定です。

e4exp commented 2 years ago

1. はじめに

シーンテキスト編集(STE)は,シーン画像中のテキストを,フォントの種類やサイズ,文字の配置や背景などのスタイルを維持したまま,目的のテキストに置き換える画像合成の作業です。 バーチャルリアリティのコア技術であるSTEは、テキストの内容を置き換えたり、機械翻訳の結果を可視化したりするために採用することができます(例:図1(a)、(b))。 さらに、図1(c)に示すように、STEは、シーン・テキスト認識(STR)[1, 29, 45]や検出[2, 48, 19]のために、テキストを様々なターゲット・テキストに変換することで、トレーニング・データを補強するためにも適用できます。 しかし、STEは、画像のインペイント、スタイルの抽出、文字のレンダリング、ローカリゼーションなどの様々なタスクと複雑に絡み合っているため、まだ広く採用されていません。 シーンテキストを編集した画像を生成するために、これまでのSTE手法[32, 42, 44]では、一般的に、テキスト削除とテキスト変換の2段階のフレームワークを採用しています。 テキスト削除モジュールは、テキストを消去した背景を生成します。 これは、シーン・テキスト画像に特化した画像インペインティング・タスクと考えることができます[27, 46, 43, 38]。 テキスト変換モジュールは,元の画像に含まれるテキスト関連のスタイルが転写された所に所望のテキストをレンダリングし,その後,テキスト削除モジュールと変換モジュールから生成された2つの出力を調和的に融合する.

これらの手法は成功していますが、2つの限界があると考えています。 これらの手法は、テキスト領域と背景領域を区別する際に、視覚的特徴に大きく依存しており、シーンテキスト画像の理解と生成に役立つテキスト情報を十分に利用していません。 さらに、削除のために追加のスーパービジョンを必要とするため、実世界のデータを学習データとして採用することができず、その結果、モデルが合成スタイルに偏ることになる。

これらの観察結果から、我々は、テキスト情報とビジュアル情報を採用した新しい表現学習ベースのSTEフレームワーク(RewriteNet)を発表しました。 テキスト情報の採用は、画像内のテキストを認識することが、複雑な背景からテキスト領域を識別するのに役立つという人間の認識に基づいています。 我々は、シーンテキスト画像が、テキスト情報と、フォント、テキストの配置、背景などのテキスト以外の情報を示すコンテンツ特徴とスタイル特徴に分解できると仮定する。 この仮定のもと,シーンテキスト画像中のテキストを認識することを目的としたSTRアーキテクチャ[1]を導入することで,入力画像のコンテンツとスタイルの特徴を別々に表現する手法を提案する. スタイルとコンテンツの特徴を別々に抽出することで、スタイル画像のスタイルを維持したまま、ターゲットのテキストを持つ画像を合成するようにジェネレータを学習することができます。 このように、RewriteNetは、これまでの研究で行われていたテキストの削除と変換の段階を、潜在空間における単純なエンコーダに置き換え、モデルをエンド・ツー・エンドで学習することができます。 また、本研究では、追加のアノテーションコストを必要とせず、ラベルのない実世界の画像を利用できる自己教師付き学習スキームを提案する。 提案された自己教師付き学習スキームは,学習されたモデルが合成スタイルに偏ることを防ぎ,学習環境とテスト環境の間のドメインギャップを埋めることができる. 図1に示すように,我々のモデルは,元の画像のスタイルをよく保ったテキスト編集画像をロバストに生成する。

我々の貢献は以下のように要約される。

image