Open NaJeehye opened 3 years ago
[현지님께서 올려주신것]
[lorra 보다 성능 좋음] Spatially Aware Multimodal Transformers for TextVQA https://arxiv.org/pdf/2007.12146.pdf (code: https://github.com/yashkant/sam-textvqa)
[인용 많음]LXMERT: Learning Cross-Modality Encoder Representations from Transformers https://arxiv.org/pdf/1908.07490.pdf (code: https://github.com/airsplay/lxmert)
lorra가 기존의 vqa가 하던 일을 할 수 없기 때문에, text vqa를 못하는 일을 기존 vqa를 추가적으로 이용해서 보완하도록 한다. (서비스쪽 infer time을 줄이면서도 최대한의 효과를 내는 것이 관건이라 속도와 함께 고려해야할 것들이 있다.)
[확정]
[조사해야할것]
전체적으로 개괄적인 글을 한국어로 적으면, 하준님께서 해당 것을 영어로 정리해서 구글폼으로 proposal올려주실때, 그때, 추가적으로 추가해야할 사항이나 변경 사항이 있으면, 답글 달기! (https://docs.google.com/document/d/1OwGjNWOSDvVrVBicZ9qf8AA5DmersNNXiYv95rbgB2Y/edit)