issues
search
AtsukiOsanai
/
cv_survey
Personal repository for computer vision survey
2
stars
0
forks
source link
Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features
#95
Open
AtsukiOsanai
opened
1 year ago
AtsukiOsanai
commented
1 year ago
Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features
Information
Authors:
Organization:
Paper:
https://arxiv.org/pdf/2111.15263.pdf
Code:
Conference/Journal: ECCV2022
Summary
サマリ図表
どんな論文か?
新規性
異なるモダリティ(VMとLM)を融合する際に、それぞれの特徴をalignさせるSESを提案。
結果
その他(なぜ通ったか?など)
ABINetの弱点として、Iterative refinementがLMのみで行われている点を挙げている
Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features
Information
Summary
サマリ図表
どんな論文か?
新規性
結果
その他(なぜ通ったか?など)