amy-hyunji / CS470

CS470 final project
1 stars 1 forks source link

2020.10.11 meeting #3

Open anybirds opened 3 years ago

anybirds commented 3 years ago

시각 장애인들을 위한 온라인 쇼핑몰 개발로 주제 결정

각자 크게 역할을 정하고 그에 맞게 앞으로의 계획 등을 정리해 다음 모임 때 이야기 나눌 것. 정리한 내용 바탕으로 제안서 제출.

제출 요령

How to submit: please write your report using google document, and upload it to the following google drive:

https://drive.google.com/drive/folders/1wUDPFbm_nBpPyrjserGC2C_hiMaCb1I8?usp=sharing (click)

We will update the drive non-editable exactly at midnight on Oct 16th. Late submission or late modifications are not allowed.

Page limit: maximum of 3 pages, A4 size

Content: There is no strict format to follow. In general, your project should contain a very clear description of the following items.

Clear descriptions of the goal; What is the problem? Why is this problem important/interesting? What will be the final outcome of the project? Approach/baselines: Which model are you going to use to address the problem? If you have a baseline model to begin with, why do you think that it fits your problem? Is there evidence? If you need to modify/extend the model, what could be such modifications? Plan for training: which datasets are you going to use to train your model? If you plan to collect your own data (although we do not recommend it), how are you going to do it? how big is your data? Plan for evaluation: how are you going to evaluate your model? Which datasets and evaluation metrics are you going to use for evaluation? Risk management: What are the expected challenges in your project (model, training, evaluation, etc)? If your project doesn't go right, what could be your back up plan? You should be very specific about this item.

cjs0410 commented 3 years ago

모델 조사.pdf

NaJeehye commented 3 years ago

<VQA관련 데이터 셋> https://visualqa.org/ tamaraberg.com/visualmadlibs/ web.stanford.edu/~yukez/visual7w.html www.mpi-inf.mpg.de/departments/computer-vision-and-multimodal-computing/research/vision-and-language/visual-turing-challenge/

진짜 "정보" 사람처럼 생각할 줄 알아야한다. -> 관계를 찾는 것에 해당 것의 핵심 쟁점이다. -> 하지만, 우리는 이정도 수준까지 갈 생각은 없다.

VQA는 Classification with complex setting이다.

- Multi-domain classification => 어떤 질문인가에 따라서 classification이 달라진다.(Object classification/Action classification => unified)
- Zero shot learning => more with finite task
- reference problem
- Spatial Relation Problem
- Visual semantic role labeling 
- conting => 특히나 어려운 것(CNN구조(동일한 conv filter가 훝고 -> fc layer로 가면 섞어져버리니까)가 counting에 썩 좋은 것은 아니다.)
- Operation Compositionality 

- [중요]Operation Compositionality가 가능하면, 해당 것을 이해하는 것이 쉽다면, 상대적으로 적은 데이터 셋으로도 가능할 수 있을 것이다.

(예시)"What is the man on the horse is doning?" => Multi-domain classification /reference problem/Spatial Relation Problem Natural Language쪽보다는 현재는 Vision쪽에 집중된 문제이다.

VQA + QA(in NLP)를 섞는 형태로 가야한다.

VQA에서 어려운 문제 중 하나는 counting문제이다. (특히, CNN구조를 사용했을시에 뭉뚱그려지는 문제가 있기때문에) 그렇기 때문에 그런 어려운 task의 경우에는 HTML을 통해서 구해진 문제로 답변을 구하도록 만들어야한다. 즉, 우선적으로 HTML을 통해서 답변을 할 수 있으면, 답변을 하고, 그곳에 해당 문제에 대한 답이 없을 경우에 VQA를 쓰는 방향으로 가도록해서 보다 답변의 정답률을 높이도록 해야한다.

그럴 경우에는, 사용자가 말하는 문제에 대한 답변을 Text가 Text를 가지고 답변을 하도록 만들어야하는 QA가 VQA에 선행적으로 들어가게 될 것이다.

영어로 만들자. 쿠팡도 아닌 것같아.(대다수의 데이터셋은 영어일테니까.그리고 나중에 혹시라도 nlp처리할때, 한글이면 머리아플지도...) => Amazon!

아마존에도 이러한 기능이 있기는하나, 단순히 HTML읽는 것에 그치는 것이 다인 것같다. With this update, VoiceView customers can read Kindle e-Books, browse the web, and otherwise interact with their Fire tablet using a Bluetooth-connected braille display. Customers can both input and read text using English contracted and uncontracted braille, Unified English braille, and computer braille codes. VoiceView supports a rich set of braille chord commands, including commands to navigate by character, word, control, HTML Link, HTML Section, HTML list item, and HTML form control, as well as jump to key parts of the Fire tablet user interface such as Home, Back, App Switcher, and the Notification/Quick Actions Shade. There are also chords to quickly bring up the VoiceView settings pane and invoke the braille Find command. [출처]https://coolblindtech.com/amazon-introduces-new-accessibility-features-for-blind-and-visually-impaired-customers/

How to train the data : VQA

:VQA를 위한 방법 크게 2가지로 나눌 수 있게된다.

1. DPPnet (Dynamic Paramter Prediction Network)

분류를 하였을때, 질문에 의존적으로 만드는 것을 어떨까? [동기] 이미지넷에 있는 것을 classification했을때 그동안 어떻게해왔던가? 맨 마지막 것만 fine tuning을 하는 것에 집중을 해왔다. [메인 아이디어] Dynamic Parameter Layer를 사용해서 뉴럴넷에 예측하는 네트워크를 만들어보도록 하자. Question -> Extract Feature -> Feature -> Regression -> Paramters

2.Multimodal Compact Bilinear Pooling for VQA

어떠한 이미지 가 있을때 해당 것을 맞춰줄 수 있다면, 해당 것은 맞출 수 있을 것이다.

이미지에서 어떤 정보가 질문이 있을텐데, 질문에 해당 하는 것을 상호관계를 보여주는 것은 Outer Product => 모든 관계를 보여줄 텐데, 해당 것은 숫자가 너무 클것이다. 그렇기 떄문에 compact bilinear pooling해서 쓰자! 외적을 해서 적은 dim으로 보내는 것이 해당 것이 목표이다. 두 외적이 어떻게 이뤄지는가에 대한 것이 멀티모달 방법이다. Attention(어떤 곳에서 어떤것이 영향을 많이 받았는지 보는 것) => 해당 것을 통해서 더 나은 상황이 온다. =>어떻게 해야지 질문과 답변을 알려주게된다.

Plan for evaluation

ACC(ans) = min{# humans that said ans/3 , 1} In order to be consistent with ‘human accuracies’, machine accuracies are averaged over all 10 choose 9 sets of human annotators. [출처]https://visualqa.org/evaluation.html

(예) 실제로, 크롤링한 웹페이지의 웹 화면을 주고, 그곳에 해당하는 이미지가 있는지 살펴보기

How to train the data : QA

[논문]https://arxiv.org/pdf/1703.04816.pdf (code : https://github.com/newmast/QA-Deep-Learning)

[관련 논문]https://cs224d.stanford.edu/reports/StrohMathur.pdf [간단하게 QA에 대해서 배우기 좋은 글]

Risk management

QA의 경우에는 특정 웹사이트에 종속되는 rule based 형태의 답변을 주도록 만들면, 된다. 하지만, VQA의 경우에는 타협없이 학습을 시키는 쪽으로 가야하고, 만약에 해당 것이 용량 및 학습의 문제가 있다면, 우리들의 도메인을 한정시켜서 "생필품" 쪽만을 집중하도록 하고, 필요없는 이미지에 대한 QandA 및 데이터는 아에 삭제(또는 급격한 축소)시키도록 한다.

vqa관련 추천 강의:https://www.edwith.org/deeplearningchoi/lecture/15580/

anybirds commented 3 years ago

이미 시각장애인을 위해 이미지를 읽어 주는 쇼핑몰 앱은 존재. 차별점을 두려면? https://www.youtube.com/watch?v=jumHIUiuHIc&ab_channel=KBS%EA%B5%90%EC%96%91

웹사이트에서 안내음을 낼 수 있을까? 당연히 가능하겠지만, 그런 웹사이트를 경험한 적이 별로 없기에 관련 질문 첨부. https://stackoverflow.com/questions/879152/how-do-i-make-javascript-beep

웹사이트를 개발하는 것이 과연 실용적인가에 대한 의문. 시각장애인 분들은 이미 텍스트 리더기를 사용하는데, 웹사이트에서 안내음을 추가적으로 내면 오히려 더 불편하지 않을까? 시각장애인 분들에게 편리한 웹사이트 구조는 오히려 은행이나 공공기관에 전화하면 자주 경험할 수 있는 자동응답시스템 같은 구조일 것이다. 웹 컨텐츠를 하나하나 읽어주는 리더기는 오히려 불편하게 느껴진다. 오히려 이미지 리딩/VQA가 가능한 웹 앱을 개발하는 것이 훨씬 좋아 보인다.

제안서 도입부 초안 작성.

Clear descriptions of the goal; What is the problem? Why is this problem important/interesting? What will be the final outcome of the project?

Topic: On-line shopping mall optimized for blind people

http://beminor.com/detail.php?number=11976 An article blaming the inaccessibility of online shopping malls for blind people in South Korea.

Blind people find it very hard to do web surfing on their own. They typically use screen reader programs that read text contents, to users. However, current screen readers aren’t capable of reading images, or describing what the image is about. This limitation becomes severe in online shopping malls, which includes a big promotion image that contains a whole bunch of information about the product. In this project, we provide an online shopping mall that gives optimized UX for blind people that is capable of reading images and simple VQA.

웹 개발 과정 고민. Find Reference -> Prototyping -> Demo -> User Test

웹 개발 사용 기술 고민. Django 프레임워크로 프론트와 백 모두 개발 사용 언어 Python으로 통일 / 혹시나 있을 interop 사전 방지 쉽고 빠른 웹 개발 가능