설명 중에 단락의 핵심 아이디어를 number item으로 정리 해주는 부분이 좋았습니다. 추가적으로 number item 별로 모델의 어떤 컴포넌트가 관련있는지 정리되면 읽기 더 편할듯합니다.
MultiModal learning의 결과를 이용한 application이나 쓰임새에 대해 간단히 설명해주면 더 좋을것 같습니다.
video에서 text, audio, image가 시간축으로 정렬되어 있을것 같은데 본문에 "The MMV approach requires no annotation or manual efforts to label video data, which is differentiated from previous work that relies on curated annotated datasets." 내용과 셋팅이 어떻게 다른지 궁금합니다.
20208061 / 박준우
설명 중에 단락의 핵심 아이디어를 number item으로 정리 해주는 부분이 좋았습니다. 추가적으로 number item 별로 모델의 어떤 컴포넌트가 관련있는지 정리되면 읽기 더 편할듯합니다.
MultiModal learning의 결과를 이용한 application이나 쓰임새에 대해 간단히 설명해주면 더 좋을것 같습니다.
video에서 text, audio, image가 시간축으로 정렬되어 있을것 같은데 본문에 "The MMV approach requires no annotation or manual efforts to label video data, which is differentiated from previous work that relies on curated annotated datasets." 내용과 셋팅이 어떻게 다른지 궁금합니다.