AtsukiOsanai / cv_survey

Personal repository for computer vision survey

2 stars 0 forks source link

Text is Text, No Matter What: Unifying Text Recognition using Knowledge Distillation #89

Open AtsukiOsanai opened 1 year ago

AtsukiOsanai commented 1 year ago

Text is Text, No Matter What: Unifying Text Recognition using Knowledge Distillation

Information

Authors:
Organization:
Paper: paper
Code:
Conference/Journal: ICCV2021

Summary

サマリ図表

スクリーンショット 2022-12-28 15 19 00

どんな論文か？

STRとHTRの両者に強いモデルを構築するために、Knowledge Distillationを用いた学習方法を提案。STR、HTR双方の教師モデルを作っておき、これに対し両ドメインを一括で扱う生徒モデルをKDの枠組みで学習させる。KDは出力logitだけでなく中間層でも行う。

新規性

Sequence modlingの問題にKDを適用した点がNovelty
- Logits KDは変わり映えがない
- glimpse, attention, affinity KDあたりがText Recognition特有

結果

その他（なぜ通ったか？など）

KD自体は既に既知の技術であったはずだがText Recognitionに適用した点が評価されたか
KD LossがモデルのArchに依存している？
Text Recognition x KDはこの研究で既知になったと捉え、もし関連研究をするなら別の観点が必要