Open jungwoo-ha opened 1 year ago
Multimodal Chain-of-Thought Reasoning in Language Models ArXiv: https://arxiv.org/abs/2302.00923 GitHub: https://github.com/amazon-science/mm-cot
기존 방법과의 가장 큰 차이점은 Vision feature와 language feature를 결합하는 방법입니다.
단순한 concatenation이 아닌 single head self-attention 후 gated fusion 방식을 활용하여 learned feature intermingling을 잘 활용해야지만 성능 향상을 볼 수 있었습니다. 결합 방법에 대한 추가적인 ablation과 이론적 분석이 없다는 점은 다소 아쉬웠습니다.
논문의 가장 큰 기여는 1B의 작은(?) 모델에서도 CoT를 가능하게 할뿐만 아니라 SOTA 성능을 냈다는 점과 hallucination을 vision feature를 통해 크게 줄일 수 있다는 것을 보여주었다는 점으로 생각됩니다. Vision feature extractor 또한 pre-trained model의 frozen weight를 사용했기 때문에 연구를 진행하는데 많은 도움이 될 것 같습니다.
FlexGen: Running large language models like OPT-175B/GPT-3 on a single GPU. GitHub: https://github.com/FMInference/FlexGen
Stanford, Berkley, EPFL 등 여러 연구 단체에서 FlexGen이라는 LLM inference 라이브러리를 공개했습니다.
LLM inference에서 고성능 GPU 없이도 비교적 빠르게 inference를 진행하기 위해 새로운 offloading schedule 및 compression을 활용하여 OPT-175B와 같은 LLM에서도 높은 throughput을 낼 수 있습니다. 다만, latency는 좋지 않다고 합니다.
아직 알파 단계이지만 LLM inference 결과를 분석하는 연구를 하는데 도움이 될 것 같습니다.
- 2012년, AlexNet이 많은 데이터를 2주간 학습시켜 이미지 인식 대회를 우승했을 때만 해도 데이터와 모델사이즈 증가가 가져올 성능 향상은 머지않아 포화될 것이라 믿었었다. 하지만 향후 10년, AI에서 입증된 사실은 다음과 같았다. "가능만하다면, 더 많은 데이터를 더 큰 모델에 넣는게 장땡이다."
- 하지만 모든 영역에서 "많은 데이터"가 가용하지 않았다. Data-centric AI가 나온 이유도 이 때문이었다. 세상에 AI가 활약하지 못하는건 모델이 없어서가 아니다. task에 밀착된 데이터가 없어서였고, 이 안에 인간의 지식을 labeling으로 넣는 과정이 너무 어려워서였다.
- 지난 3년간 ART Lab에서 피부AI를 만들어보니 그 어려움이 생각보다 크단 걸 알 수 있었다. 처음엔 '의사 레이블링만 있으면 되는거 아니야?'라고 생각했지만, 서비스를 일으켜 데이터를 얻고, 모호함 속에 균일한 레이블링을 얻으며, 이를 다시 고객가치로 연결하는 일은 일반 스타트업 MVP의 몇배의 시간이 들어가는 일이었다.
- 인류의 가장 보편적인 지식을 담은 AGI를 만든다고 한다면 과연 어떤 데이터를 넣어야 할까? 사람들보고 온갖 지식을 레이블링 해달라고 요청할 수 있을까? 다행스럽게도 인류에겐 가장 오래된 지식데이터가 있었다. 바로 책, 그리고 현대시대엔 웹이다.
- "더 큰 모델에 더 큰 데이터"가 AGI를 만드는 왕도라면 세상에 존재하는 모든 웹 텍스트를 넣을 거대한 모델과 컴퓨팅파워만 존재하면 된다. 이것이 바로 LLM의 출현이며, 그동안 BERT의 첫 반향에서 시작해 몇백배로 사이즈가 커진 GPT가 마침내 "난 생각보다 똑똑해"라는걸 만천하에 알리게 되었다.
- 2012년, ImageNet챌린지에서 다뤘던 1000가지 카테고리 구분하기엔 100여종이 넘는 강아지도 구분해야 한다. 강아지 전문가가 아니면 어려울 일이고 '당연히 AI가 잘하지'란 말이 나올법하다. GPT도 그런 수준에 이르렀다. '세상 모든 웹지식을 두뇌에 넣고 있는데 당연히 AI가 더 잘하지'. AI가 웬만한 사람보다 글도 더 잘쓰고 지식도 풍부하다.
- 물론 단점이 있다. 첫째, 웹 지식은 방대하지만 전문적이지 않다. 그렇기에 ChatGPT에 물어보면 수많은 블로그 요약 수준의 답변은 하겠지만 전문가 수준의 답은 하지 못한다. 코딩처럼 모든 전문가의 행위가 웹에 데이터화 되어있지 않다면 말이다. (참고로 부트캠프 수준의 코더들은 모두 대체될 것이라 예상한다)
- 또다른 단점은 눈이 없다는 점이다. 물론 멀티모달로 텍스트 뿐만 아니라 비전, 음성 등 다양한 입력들을 연계해 연구가 이루어지고 있다. 하지만 아직은 text-to-text만큼 충분히 방대하지 못하다. 무엇보다 "이거 뭐야?"처럼 질문에 충분한 텍스트가 녹아져있지 않은 경우, 반대로 텍스트 말고 다양한 아웃풋(e.g.감정)의 출력을 원하는 경우 그것이 불가능 하다.
- 당신의 task를 완벽하게 언어로 설명할 수 있다면 프로그래밍으로 해결 가능하다. 하지만 사람은 (하물며 개/고양이 구분법조차도) 언어로 설명하지 못하기 때문에 "예시로 보여줄게"라며 Data-driven의 방법이 나오고 머신러닝이 흥한 것이다. 사람은 여전히 언어로 "완벽한 질문"을 할 수 없으며, "완벽히 담지 못한 텍스트 지식"으로 학습하며 "완벽한 텍스트"로 표현하지 못하는 GPT엔 한계가 있다.
- 당장 초거대AI를 하는 초거대기업들은 멀티모달학습으로 넘어가며 엄청난 전기료 & 이산화탄소 방출을 뽐내고 있지만, 작은 스타트업들이 해야할 일은 빠르게 GPT에 도메인 전문 두뇌를 달아주고, 여기에 눈을 달아주는 일일 것이다. ART Lab은 GPT가 피부과의사가 될 수 있게 하기위해 그동안 쌓아왔던 피부AI를 바탕으로 눈을 달기 시작했다.
- 이제까진 데이터에 레이블링을 해서 넣어줘야 AI가 만들어지는 시대였었다. 하지만 이젠 자연어로 AI가 길들여지는 시대가 되었다. 예전엔 서버로 데이터를 쌓고 레이블링을 할 수 있는 곳만 AI를 쓸 수 있었다면, 이젠 누구나 AI로 나만의 서비스를 만들 수 있다. 곧 앱스토어만큼이나 풍부해진 AI스토어를 보게 될 것이다. 새 시대의 AI도 기대되고, 세상에 AI & Robotics Tech(ART)를 뿌리내리는 ART Lab의 새 시대도 기대된다.
좋은 자료 정말 감사합니다. 여기 공유해주셨군요 :)
News
ArXiv