AtsukiOsanai / cv_survey

Personal repository for computer vision survey
2 stars 0 forks source link

Language Matters: A Weakly Supervised Vision-Language Pre-training Approach for Scene Text Detection and Spotting #97

Closed AtsukiOsanai closed 1 year ago

AtsukiOsanai commented 1 year ago

Language Matters: A Weakly Supervised Vision-Language Pre-training Approach for Scene Text Detection and Spotting

Information

Summary

サマリ図表

スクリーンショット 2023-01-09 0 34 41

どんな論文か?

OCRに適したVision-Language(VL) pretrainingモデルの提案。CLIPのようなVL pretrainingはimageとtextのcontent-levelでの関係性を学習するため、OCRのようなlow-levelでのdetect&recognizeタスクには不向きである。そこでOCRに特化したoCLIPを提案。oCLIPはImage Encoder, Character-aware text Encoder, Visual-Textual Decoderからなり、MaskingされたCharacterの推定をobjectiveとしたpretrainingを行う。学習されたImage Encoderを用いて、detection, spottingといったOCRタスクでfinetuneされる。oCLIPでpretrainされたモデルはベースライン(ターゲットタスクでのpretraining)を上回る精度を達成

新規性

結果

スクリーンショット 2023-01-09 0 35 45

その他(なぜ通ったか?など)

スクリーンショット 2023-01-09 0 33 41
AtsukiOsanai commented 1 year ago

Table.3はpartial annotationの実験結果。 画像1枚に含まれる全テキスト(word levelで分割されていると思って良い)のうち、何%を利用するかをパラメータスタディしている。Table.3より25%でも100%と近しい効果&BaselineであるFull supervision pre-trainingより効果的であることが報告されている。