Closed AtsukiOsanai closed 1 year ago
OCRに適したVision-Language(VL) pretrainingモデルの提案。CLIPのようなVL pretrainingはimageとtextのcontent-levelでの関係性を学習するため、OCRのようなlow-levelでのdetect&recognizeタスクには不向きである。そこでOCRに特化したoCLIPを提案。oCLIPはImage Encoder, Character-aware text Encoder, Visual-Textual Decoderからなり、MaskingされたCharacterの推定をobjectiveとしたpretrainingを行う。学習されたImage Encoderを用いて、detection, spottingといったOCRタスクでfinetuneされる。oCLIPでpretrainされたモデルはベースライン(ターゲットタスクでのpretraining)を上回る精度を達成
Table.3はpartial annotationの実験結果。 画像1枚に含まれる全テキスト(word levelで分割されていると思って良い)のうち、何%を利用するかをパラメータスタディしている。Table.3より25%でも100%と近しい効果&BaselineであるFull supervision pre-trainingより効果的であることが報告されている。
Language Matters: A Weakly Supervised Vision-Language Pre-training Approach for Scene Text Detection and Spotting
Information
Summary
サマリ図表
どんな論文か?
OCRに適したVision-Language(VL) pretrainingモデルの提案。CLIPのようなVL pretrainingはimageとtextのcontent-levelでの関係性を学習するため、OCRのようなlow-levelでのdetect&recognizeタスクには不向きである。そこでOCRに特化したoCLIPを提案。oCLIPはImage Encoder, Character-aware text Encoder, Visual-Textual Decoderからなり、MaskingされたCharacterの推定をobjectiveとしたpretrainingを行う。学習されたImage Encoderを用いて、detection, spottingといったOCRタスクでfinetuneされる。oCLIPでpretrainされたモデルはベースライン(ターゲットタスクでのpretraining)を上回る精度を達成
新規性
結果
その他(なぜ通ったか?など)