Open jungwoo-ha opened 1 year ago
ArXiv: https://arxiv.org/abs/2306.11644
최근 비교적 작은 모델에서도 양질의 데이터를 활용하는 방식으로 모델 성능을 향상하는 방법이 대두되었는데 Microsoft에서 Textbooks are all you Need 논문에서 교과서 수준의 양질의 데이터를 선별할 경우 심지어 350M의 (요즘 기준) 매우 작은 언어 모델에서도 HumanEval 등 coding task에서 SOTA는 아니지만 우수한 성능을 보일 수 있다는 것을 보였습니다. 초거대 언어모델에서 모델의 크기가 클 경우 noisy data가 많음에도 매우 우수한 대화형 만들 수 있으나 학습 및 배포에 필요한 막대한 비용을 감안한다면 학계 및 작은 기업에서 눈여겨볼 방법으로 생각됩니다.
URL: https://www.nature.com/articles/s42256-023-00673-x
Nature Machine Intelligence에서도 데이터 수집이 연구에 비해 인센티브를 받지 못하는 것에 대한 기사가 나왔는데 (접속이 되는 분들께) 도움이 될 것으로 생각됩니다 ~저는 없어요 ㅠㅠ~.
Blog: https://www.microsoft.com/en-us/research/blog/deepspeed-zero-a-leap-in-speed-for-llm-and-chat-model-training-with-4x-less-communication/ ArXiv: https://arxiv.org/abs/2306.10209
LLM을 학습하는데 주요 라이브러리인 DeepSpeed에서 Zero++ 업데이트를 공개했습니다. 기존 DeepSpeed는 각 GPU 당 large micro-batch가 있는 경우를 산정하고 효율적인 학습을 진행했는데 최근 언어모델의 크기가 커지면서 GPU 하나에 입력 가능한 데이터의 양이 줄어들어 문제가 되고 있었습니다. 이런 이슈에 대응하기 위해 gradient passing 진행 시 custom quantization kernel을 구현하는 등 여러 최적화를 적용해 small micro-batch 환경에서도 효율적인 tree all-gather 방법을 적용하도록 업데이트 되었습니다.
다만, DeepSpeed는 사용하기 불편하기로 알려져 있는데 PyTorch의 Native인 FSDP와의 성능 비교가 필요하다고 생각됩니다. 특히 FSDP는 DeepSpeed의 Zero 1,2,3를 이미 모두 활용하고 있기 때문에 곧 Zero++ 업데이트 또한 반영할 것으로 예상됩니다.
Video: https://youtu.be/lQCG4zUCYao
Blog: https://huggingface.co/blog/evaluating-mmlu-leaderboard
여러 언어모델의 성능을 비교하는 주요 리더보드 중 하나인 OpenLLM의 MMLU (Massive Multitask Language Understanding) 성능에서 논문에서 보고된 LLaMa 성능과 리더보드에서의 LLaMa 성능에 차이가 발생해 논란이 발생한 것을 HuggingFace에서 찾아 심층 분석을 진행한 결과를 블로그에 공유했습니다.
확인한 결과 MMLU 평가 구현체는 3개 이상 있는데 논문과 리더보드에서 모두 다른 구현체를 사용했으며 업데이트 시 변경 사항 등이 큰 영향을 미친 것으로 확인되었습니다. 언어모델이 prompt에 민감한 만큼 autoregressive sampling으로 인해 temperature 등 hyper-parameter에도 매우 민감한데 항상 정확하고 재현 가능한 평가 방법을 적용하기 위해 노력해야 한다는 것을 상기시켜줍니다.
ArXiv: https://arxiv.org/abs/2306.09782 GitHub: https://github.com/OpenLMLab/LOMO
LLM finetuning을 진행하기 위한 (다소) 새로운 방법이 제시되었습니다. 언어 모델의 크기가 너무 커지면서 추가 학습을 진행하기 매우 어렵다는 문제점이 있었으나 일반적으로 모델 학습에서 가장 큰 병목은 Optimizer가 보유한 momentum 등 gradient history로 인한 것이었습니다.
LOMO에서는 단순하게 momentum을 모두 제거하고 단순한 SGD 알고리즘만으로 pre-trained LLM을 finetuning 하는 방법을 적용했을 때 LLaMa 65B 모델을 (비교적) low-resource 환경인 8대의 3090Ti GPU를 single node 환경에서 학습할 수 있었습니다.
이미 pre-trained LLM은 flat loss surface에 있다는 점을 이용해 단순 SGD를 사용했을 때에도 fine-tuning이 가능하다는 것을 보여준 PoC로 의미가 있다고 생각되며 성능은 gradient state를 기억하는 방법에 비해 낮지만 QAT 혹은 pruning 등 방법을 적용할 때 활용할 수 있는 연구 방향으로 생각됩니다. Learning rate를 감소하거나 batch size 증가, gradient에 대한 추가적 regularization 등을 적용했을 때 더 안정적인 학습이 가능할 수도 있다고 생각됩니다.
DeepMind에서 나온 로보틱스 논문 4개. (로보틱스 전공은 아니지만 LLM decision making 쪽이라.. )
SayTap: Language to Quadrupedal Locomotion
RoboCat: A Self-Improving Foundation Agent for Robotic Manipulation
Language to Rewards for Robotic Skill Synthesis
Foundation model은 아니지만 같이 나온 : Agile Catching with Whole-Body MPC and Blackbox Policy Learning
지난 한달간 TechCrunch에서 "눈에 보이는대로" 뽑은 AI 소식들 공유 드립니다.
[투자] Hyro 시리즈B $20M (약 260억) : Hyro는 의료 현장의 conversational AI를 하는 곳으로 주로 루틴한 업무 - 예를 들면 환자의 스케쥴을 잡는다던지, 약을 재처방 한다든지 - 의 자동화 효율을 돕는 곳으로 알려져 있습니다.
[투자] Predibase $12M (약 170억, 누적 370억) : Predibase는 Low code로 ML을 만들 수 있는 플랫폼으로 이제까지 250개의 모델이 유저들로부터 만들어졌다고 합니다. LLM을 하다보면 실제로 코딩도, 디버깅도 종종 자연어로 하게 되는데요, No code가 좀 더 말이 되는 세상이 오고있는 것 같습니다.
[투자] EvaluAgent $20M (약 260억) : AI콜센터 agent를 만드는 스타트업이 아니고, 이들을 평가하는 스타트업입니다. 현재 만들어지고 있는 AI 콜센터 중 1-2%만 퀄리티 평가를 받는다는 점에서 착안했다고 하네요
[투자] Synthesia $90M (약 1200억) : AI가상인간으로 유명한 Synthesia의 시리즈C 투자소식입니다. $1B (약 1.2조)의 기업가치로 알려져있습니다.
“We now have over 50,000 customers,” Riparbelli said via email. “We don’t disclose revenue figures at this time, but the company has a year-over-year user growth rate of 456% and over 15 million videos generated on the platform to date.”
[투자] Rembrand $8M (약 100억) : 가상광고판을 생성AI로 영상에 합성하는 서비스 Rembrand가 로레알 등으로부터 시 투자를 받았습니다. [유튜브 영상]
[LLM서비스] Voice generation을 하는 ElevenLabs에서 AI합성을 detection하는 기능을 내놨습니다 : ElevenLabs는 올해 초 내놓은 매우 realistic 하면서도 빠른 generation을 가능하게 하는 음성합성 서비스로 화제를 일으켰는데요, 내놓자마자 각종 어뷰징 사례(e.g. 연예인 목소리로 인종차별 발언을 합성한다든지)로 곤혹을 치뤘습니다. 이에 따라 AI합성임을 deteciton 하는 기능을 내놓았다고 하네요.
[잡소식] Mechanical Turk 노동자들이 AI를 쓰고 있다고 하네요 : 아마추어 번역가들이 구글번역기를 쓸 때부터 이미 예견된 일이 아니었을까요
[LLM서비스] InstaCart에서 ChatGPT 통합을 내놓았습니다. : ChatGPT를 통해 상품에 대해 묻거나 또는 개인화 된 추천을 받을 수 있습니다. 슬랙, 옐프, 듀오링고, 디스코드 등 많은 곳이 ChatGPT 통합을 내놓았는데요, LLM은 스타트업을 위한 신규서비스가 아니라 기존 대기업을 위한 Add-on 정도일 수 있지 않을까요?
With Ask Instacart, users can ask questions like “What kind of side dishes should I serve with lamb chops?” or “What fish is similar to salmon?” You can also ask questions like “What are good sauces for grilling chicken?” or “What are dairy-free snacks for kids?”
[LLM서비스] Otter에서 내놓은 미팅 기반 챗봇 : 자동 회의록 작성을 도와주는 서비스 Otter에서 미팅의 내용에 대해 물을 수 있는 챗봇 기능을 추가했다고 합니다.
[LLM서비스] 구글의 새로운 검색 환경 Search Lab : 검색도 새로운 시도들이 이어지고 있는데요, Generative AI를 기반으로 이미지, 음성, 새로운 쇼핑 경험 등 새로운 시도들을 보여준 새로운 검색환경을 구글에서 실험적으로 내놓았습니다. [유튜브 영상 링크]
[LLM서비스] 구글의 Vertex AI에서 이젠 생성형 AI를 Low code로 쓸 수 있습니다 : 이제는 개발자들이 AI를 잘 몰라도 갖다쓸 수 있습니다,
Based on Google’s models like PaLM 2, Imagen and Codey, Vertex AI offers developers access to the PaLM’s features for generating and classifying text, building ChatGPT-like multi-turn chat experiences and a text embedding API for tasks like semantic search and recommendation engines.
[AI서비스] 유튜브의 자동 더빙 서비스 Aloud : 유튜브가 다국어로 자동 더빙해주는 서비스를 내놓았습니다. 이미 1만개 이상의 비디오가 이 서비스를 통해 70개국의 언어로 더빙되었다고 하네요.
[로봇 연구] 집안일을 유튜브로부터 배우는 로봇 : 이번 CVPR에 나온 "Affordances from Human Videos as a Versatile Representation for Robotics"란 연구입니다. [CVPR영상]
[AI서비스] 구글렌즈에서 피부 질병을 감별할 수 있다고 합니다 : 구글렌즈로 찍으면 피부질환 감별이 가능합니다. (한편, ART Lab은 피부 관련 헬스케어보단 에스테틱 상담 GPT에 집중하고 있습니다)
Zoom webinar: https://navercorp.zoom.us/j/92208940283
News
6.25 73주년 순국선열들의 희생에 감사드립니다.
Conferences
사실상 쿠데타, 바그너 반란 우크라전 영향은? 우크라 “이제 시작” [월드뷰]
일론 머스크 vs. 마크 저커버그
Meta to pull news from Facebook and Instagram in Canada
Toyota Research Institute unveils generative AI-powered vehicle design tool.
AWS invests $100 million to help customers succeed with generative AI
MosaicML의 MPT-30B 공개
ArXiv
AudioPaLM: A Large Language Model That Can Speak and Listen
From Word Models to World Models: Translating from Natural Language to the Probabilistic Language of Thought