paperswithlove / papers-we-read

3 stars 0 forks source link

mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding #13

Open hjeun opened 3 months ago

hjeun commented 3 months ago

0. Summary

1. mPLUG Series (from Alibaba)

2. Target Domain

3. Keypoints

4. Architecture image

5. Unified Structure Learning

  1. DocStruct4M image

  2. H-Reducer

    • 1x4 Conv.로 문서에 Text가 쓰여있는 형태를 고려한 Layer
    • image
  3. Multimodality-Adaptive Module (mPlug-Owl2)

    • Image와 Text Self-Attention을 따로 하는 형태
    • image
JihoonJ commented 3 months ago

ㅋㅋㅋㅋ 저도 작성하러 들어왔는데 미리 작성된 내용이 똭!! 몇 가지 같이 공유 드립니다.

  1. Models
    • Visual Encoder: ViT/L-14, 448x448, output 1024 sequence
    • Adapter: H-Reducer, 1-layer cnn + MLP, output 256 sequence
      • cnn: 1x4 kernel, 1x4 stride
  2. Ablation
    • 과연 H-Reducer는 2x2 conv 대비 성능은 어떤가? --> VQA 측면에서 좋긴 하지만 월등하지는 않음
      • image
    • 과연 H-Reducer는 2x2 conv 대비 성능은 어떤가? --> OCR 측면에선 꽤 개선이 있음
      • image
JihoonJ commented 3 months ago

현준님께 예전에 공유 드리긴 했지만, H-Reducer의 1x4 kernel과 같은 효과를 C-Adapter에 적용하여 학습 중에 있습니다. 결과 나오면 공유 드릴께요!