RewriteNet: Realistic Scene Text Image Generation via Editing Text in Real-world Image

1. はじめに

シーンテキスト編集（STE）は，シーン画像中のテキストを，フォントの種類やサイズ，文字の配置や背景などのスタイルを維持したまま，目的のテキストに置き換える画像合成の作業です。バーチャルリアリティのコア技術であるSTEは、テキストの内容を置き換えたり、機械翻訳の結果を可視化したりするために採用することができます（例：図1（a）、（b））。さらに、図1（c）に示すように、STEは、シーン・テキスト認識（STR）[1, 29, 45]や検出[2, 48, 19]のために、テキストを様々なターゲット・テキストに変換することで、トレーニング・データを補強するためにも適用できます。しかし、STEは、画像のインペイント、スタイルの抽出、文字のレンダリング、ローカリゼーションなどの様々なタスクと複雑に絡み合っているため、まだ広く採用されていません。シーンテキストを編集した画像を生成するために、これまでのSTE手法[32, 42, 44]では、一般的に、テキスト削除とテキスト変換の2段階のフレームワークを採用しています。テキスト削除モジュールは、テキストを消去した背景を生成します。これは、シーン・テキスト画像に特化した画像インペインティング・タスクと考えることができます[27, 46, 43, 38]。テキスト変換モジュールは，元の画像に含まれるテキスト関連のスタイルが転写された所に所望のテキストをレンダリングし，その後，テキスト削除モジュールと変換モジュールから生成された2つの出力を調和的に融合する．

これらの手法は成功していますが、2つの限界があると考えています。これらの手法は、テキスト領域と背景領域を区別する際に、視覚的特徴に大きく依存しており、シーンテキスト画像の理解と生成に役立つテキスト情報を十分に利用していません。さらに、削除のために追加のスーパービジョンを必要とするため、実世界のデータを学習データとして採用することができず、その結果、モデルが合成スタイルに偏ることになる。

これらの観察結果から、我々は、テキスト情報とビジュアル情報を採用した新しい表現学習ベースのSTEフレームワーク（RewriteNet）を発表しました。テキスト情報の採用は、画像内のテキストを認識することが、複雑な背景からテキスト領域を識別するのに役立つという人間の認識に基づいています。我々は、シーンテキスト画像が、テキスト情報と、フォント、テキストの配置、背景などのテキスト以外の情報を示すコンテンツ特徴とスタイル特徴に分解できると仮定する。この仮定のもと，シーンテキスト画像中のテキストを認識することを目的としたSTRアーキテクチャ[1]を導入することで，入力画像のコンテンツとスタイルの特徴を別々に表現する手法を提案する．スタイルとコンテンツの特徴を別々に抽出することで、スタイル画像のスタイルを維持したまま、ターゲットのテキストを持つ画像を合成するようにジェネレータを学習することができます。このように、RewriteNetは、これまでの研究で行われていたテキストの削除と変換の段階を、潜在空間における単純なエンコーダに置き換え、モデルをエンド・ツー・エンドで学習することができます。また、本研究では、追加のアノテーションコストを必要とせず、ラベルのない実世界の画像を利用できる自己教師付き学習スキームを提案する。提案された自己教師付き学習スキームは，学習されたモデルが合成スタイルに偏ることを防ぎ，学習環境とテスト環境の間のドメインギャップを埋めることができる．図1に示すように，我々のモデルは，元の画像のスタイルをよく保ったテキスト編集画像をロバストに生成する。

我々の貢献は以下のように要約される。

我々は、テキスト情報を用いてコンテンツの特徴とスタイルの特徴を区別して符号化する、新しい表現学習ベースのSTEフレームワークを提案する。我々の知る限り、RewriteNetは、STEのためにテキスト情報を利用した最初の手法です。
また、STEモデルの自己教師付き学習スキームを提案し、ラベルのない実写画像を採用しました。
我々は、RewriteNetがこれまでの画像間翻訳手法や最近のSTE手法よりも質的・量的に優れていることを確認しました。
また、RewriteNetの特徴分解、モデル設計、ロバスト性、STRのためのデータ増強に関する拡張性など、RewriteNetの有効性を広く示すことができました。

e4exp / paper_manager_abstract

RewriteNet: Realistic Scene Text Image Generation via Editing Text in Real-world Image #599

1. はじめに