AtsukiOsanai / cv_survey

Personal repository for computer vision survey

2 stars 0 forks source link

Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features #95

Open AtsukiOsanai opened 1 year ago

AtsukiOsanai commented 1 year ago

Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features

Information

Authors:
Organization:
Paper: https://arxiv.org/pdf/2111.15263.pdf
Code:
Conference/Journal: ECCV2022

Summary

サマリ図表

どんな論文か？

新規性

異なるモダリティ（VMとLM）を融合する際に、それぞれの特徴をalignさせるSESを提案。

結果

その他（なぜ通ったか？など）

ABINetの弱点として、Iterative refinementがLMのみで行われている点を挙げている