I read this because.. : table 관련 연구. sgg에서 쓸만한 아이디어 없을까하고 겸사겸사 읽음.
task : Table Structure Recognition(TSR)
problem : 테이블 표현을 위해는 3가지 modality(좌표, 이미지, 내용)가 있음. 보통 좌표가 가장 중요한 feature이나 이미지가 왜곡되어 있으면 좌표보다는 다른 modality를 활용해야 함. 이렇게 modality간의 서로 도와주도록 잘 학습하려면?
idea : early fusion도 아니고 late fusion도 아닌.. 각각 하고 다시 합치고 이걸 여러 블락으로 반복하는 아키텍쳐.
architecture : 이미지 내 bbox가 node, 모든 연결을 edge로. 각 modality에 대해서 Q는 feature, K=V는 edge representation으로 하는 MHA로 feature 뽑고(Ego Context Extractor) 각 modality를 쿼리로 하고 다른 modality를 K,V로 쓰는 3개의 Cross Context Synthesizer를 다음에 붙임.
objective : 모든 node i, j에 대한 edge가 있고 이게 row, column, cell로 연결되어있는지 각각의 bce
baseline : FLAG-Net, TabStr, DGCNN
data : ICDAR-2013, ICDAR-2019, WTW, UNLV, SciTSR, SciTSR-COMP
evaluation : Tree Edit Distance(TED), BLEU
result : sota
Details
Motivation
Architecture
MHA 연산이 너무 복잡하니 Pyramid ViT에서 나왔던 Compressed MHA(CMHA) 사용
paper
TL;DR
Details
Motivation
Architecture
MHA 연산이 너무 복잡하니 Pyramid ViT에서 나왔던 Compressed MHA(CMHA) 사용
Result