Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer

Information

Authors: Yair Kittenplon+
Organization: AWS AI Labs
Paper: https://openaccess.thecvf.com/content/CVPR2022/papers/Kittenplon_Towards_Weakly-Supervised_Text_Spotting_Using_a_Multi-Task_Transformer_CVPR_2022_paper.pdf
Code: Not yet
Conference/Journal: CVPR2022

Summary

サマリ図表

どんな論文か？

画像に含まれるテキストラベルのみから、テキストの検出・領域分割・認識の3タスクを弱教師あり学習(WSL)でE2Eに解く。学習は2段階になっており、①(3タスクの教師データが付与された)SynthTextデータセットで教師あり学習(SL)、②SynthTextとテキストラベルのみが付与されたRealデータのMixでWSL、を行う。

新規性

Multi Task Text spottingのWSL schemeを提案した点
Text Hungarian Lossの提案
- DETRで導入されたBipartite Matching Lossにテキスト認識のスコアも加味したText Hungarian Lossを提案。Recognitionのスコアもマッチングの際に考慮される
- WSLの際はbbox (or polygon)の情報は使わずテキスト認識スコアでMatchingをとる
１つのアーキテクチャでSLとWSLの両者に対応

結果

ICDAR15/Total-TextにおいてSOTAsにComparableな精度を達成

その他（なぜ通ったか？など）

WSLのText Spottingは関連研究が少ない
画像中のテキストがDenseかつCurvedだと精度が落ちる傾向にありそう

AtsukiOsanai / cv_survey

Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer #37