2020.10.15 meeting - Githubissues

amy-hyunji / CS470

CS470 final project

1 stars 1 forks source link

2020.10.15 meeting #4

Open NaJeehye opened 3 years ago

NaJeehye commented 3 years ago

[확정]

영문 쇼핑 웹사이트 사용
QA파트는 제외하고, 필요할시 해당 것을 넣도록 한다.(즉, 개발하다가 필요하면 넣을 것, 하지만 당장의 필요성은 애매모호하기때문에 제안서에는 작성하지 말자)
LoRRA모델을 베이스로 Train시키고, 만약에 해당 모델이 이미지 그자체에 대한 QA능력이 부족할시에 다른 모델과 병행하는 등의 섞어서 쓰는 쪽으로 Risk management를 적어야할것같다.

[조사해야할것]

[개발팀]가장 베이스 쇼핑몰 웹사이트로 무엇을 잡아야할지 (최소한 데모를 위해서 해당 웹사이트에서는 작동이 가능하도록)
[개발팀(하준님)]웹앱 형태로 하는 것이 기술적으로 가능할지에 대해서 생각해보기
[진수님]LoRRA 모델이 텍스트 이미지 외에도 이미지 그자체에 대한 QA능력이 있는지
[모델팀]VQA관련 데이터 셋의 object class들이 무엇이 있는지
모델을 섞어 쓴다는 것 자체가 가능한 개념인지?

전체적으로 개괄적인 글을 한국어로 적으면, 하준님께서 해당 것을 영어로 정리해서 구글폼으로 proposal올려주실때, 그때, 추가적으로 추가해야할 사항이나 변경 사항이 있으면, 답글 달기! (https://docs.google.com/document/d/1OwGjNWOSDvVrVBicZ9qf8AA5DmersNNXiYv95rbgB2Y/edit)

NaJeehye commented 3 years ago

[현지님께서 올려주신것]

[lorra 보다 성능 좋음] Spatially Aware Multimodal Transformers for TextVQA https://arxiv.org/pdf/2007.12146.pdf (code: https://github.com/yashkant/sam-textvqa)
[인용 많음]LXMERT: Learning Cross-Modality Encoder Representations from Transformers https://arxiv.org/pdf/1908.07490.pdf (code: https://github.com/airsplay/lxmert)
lorra가 기존의 vqa가 하던 일을 할 수 없기 때문에, text vqa를 못하는 일을 기존 vqa를 추가적으로 이용해서 보완하도록 한다. (서비스쪽 infer time을 줄이면서도 최대한의 효과를 내는 것이 관건이라 속도와 함께 고려해야할 것들이 있다.)