jungwoo-ha / WeeklyArxivTalk

[Zoom & Facebook Live] Weekly AI Arxiv 시즌2
973 stars 41 forks source link

[20230625] Weekly AI ArXiv 만담 시즌2 - 21회차 #87

Open jungwoo-ha opened 1 year ago

jungwoo-ha commented 1 year ago

Zoom webinar: https://navercorp.zoom.us/j/92208940283

News

ArXiv

veritas9872 commented 1 year ago

News

Textbooks Are All You Need

ArXiv: https://arxiv.org/abs/2306.11644

image image

최근 비교적 작은 모델에서도 양질의 데이터를 활용하는 방식으로 모델 성능을 향상하는 방법이 대두되었는데 Microsoft에서 Textbooks are all you Need 논문에서 교과서 수준의 양질의 데이터를 선별할 경우 심지어 350M의 (요즘 기준) 매우 작은 언어 모델에서도 HumanEval 등 coding task에서 SOTA는 아니지만 우수한 성능을 보일 수 있다는 것을 보였습니다. 초거대 언어모델에서 모델의 크기가 클 경우 noisy data가 많음에도 매우 우수한 대화형 만들 수 있으나 학습 및 배포에 필요한 막대한 비용을 감안한다면 학계 및 작은 기업에서 눈여겨볼 방법으로 생각됩니다.

The incentive gap in data work in the era of large models

URL: https://www.nature.com/articles/s42256-023-00673-x

Nature Machine Intelligence에서도 데이터 수집이 연구에 비해 인센티브를 받지 못하는 것에 대한 기사가 나왔는데 (접속이 되는 분들께) 도움이 될 것으로 생각됩니다 ~저는 없어요 ㅠㅠ~.

ZeRO++: Extremely Efficient Collective Communication for Giant Model Training

Blog: https://www.microsoft.com/en-us/research/blog/deepspeed-zero-a-leap-in-speed-for-llm-and-chat-model-training-with-4x-less-communication/ ArXiv: https://arxiv.org/abs/2306.10209

image

LLM을 학습하는데 주요 라이브러리인 DeepSpeed에서 Zero++ 업데이트를 공개했습니다. 기존 DeepSpeed는 각 GPU 당 large micro-batch가 있는 경우를 산정하고 효율적인 학습을 진행했는데 최근 언어모델의 크기가 커지면서 GPU 하나에 입력 가능한 데이터의 양이 줄어들어 문제가 되고 있었습니다. 이런 이슈에 대응하기 위해 gradient passing 진행 시 custom quantization kernel을 구현하는 등 여러 최적화를 적용해 small micro-batch 환경에서도 효율적인 tree all-gather 방법을 적용하도록 업데이트 되었습니다.

다만, DeepSpeed는 사용하기 불편하기로 알려져 있는데 PyTorch의 Native인 FSDP와의 성능 비교가 필요하다고 생각됩니다. 특히 FSDP는 DeepSpeed의 Zero 1,2,3를 이미 모두 활용하고 있기 때문에 곧 Zero++ 업데이트 또한 반영할 것으로 예상됩니다.

Video: https://youtu.be/lQCG4zUCYao

What's going on with the OpenLLM Leaderboard?

Blog: https://huggingface.co/blog/evaluating-mmlu-leaderboard

여러 언어모델의 성능을 비교하는 주요 리더보드 중 하나인 OpenLLM의 MMLU (Massive Multitask Language Understanding) 성능에서 논문에서 보고된 LLaMa 성능과 리더보드에서의 LLaMa 성능에 차이가 발생해 논란이 발생한 것을 HuggingFace에서 찾아 심층 분석을 진행한 결과를 블로그에 공유했습니다.

확인한 결과 MMLU 평가 구현체는 3개 이상 있는데 논문과 리더보드에서 모두 다른 구현체를 사용했으며 업데이트 시 변경 사항 등이 큰 영향을 미친 것으로 확인되었습니다. 언어모델이 prompt에 민감한 만큼 autoregressive sampling으로 인해 temperature 등 hyper-parameter에도 매우 민감한데 항상 정확하고 재현 가능한 평가 방법을 적용하기 위해 노력해야 한다는 것을 상기시켜줍니다.

image image
veritas9872 commented 1 year ago

Research

Full Parameter Fine-tuning for Large Language Models with Limited Resources

ArXiv: https://arxiv.org/abs/2306.09782 GitHub: https://github.com/OpenLMLab/LOMO

image image image

LLM finetuning을 진행하기 위한 (다소) 새로운 방법이 제시되었습니다. 언어 모델의 크기가 너무 커지면서 추가 학습을 진행하기 매우 어렵다는 문제점이 있었으나 일반적으로 모델 학습에서 가장 큰 병목은 Optimizer가 보유한 momentum 등 gradient history로 인한 것이었습니다.

LOMO에서는 단순하게 momentum을 모두 제거하고 단순한 SGD 알고리즘만으로 pre-trained LLM을 finetuning 하는 방법을 적용했을 때 LLaMa 65B 모델을 (비교적) low-resource 환경인 8대의 3090Ti GPU를 single node 환경에서 학습할 수 있었습니다.

이미 pre-trained LLM은 flat loss surface에 있다는 점을 이용해 단순 SGD를 사용했을 때에도 fine-tuning이 가능하다는 것을 보여준 PoC로 의미가 있다고 생각되며 성능은 gradient state를 기억하는 방법에 비해 낮지만 QAT 혹은 pruning 등 방법을 적용할 때 활용할 수 있는 연구 방향으로 생각됩니다. Learning rate를 감소하거나 batch size 증가, gradient에 대한 추가적 regularization 등을 적용했을 때 더 안정적인 학습이 가능할 수도 있다고 생각됩니다.

Clyde21c commented 1 year ago

Resarch

DeepMind에서 나온 로보틱스 논문 4개. (로보틱스 전공은 아니지만 LLM decision making 쪽이라.. )

News

kimyoungdo0122 commented 1 year ago

ArXiv


News

terryum commented 1 year ago

지난 한달간 TechCrunch에서 "눈에 보이는대로" 뽑은 AI 소식들 공유 드립니다.