jungwoo-ha / WeeklyArxivTalk

[Zoom & Facebook Live] Weekly AI Arxiv 시즌2
973 stars 41 forks source link

[20230611] Weekly AI ArXiv 만담 시즌2 - 19회차 #85

Open jungwoo-ha opened 1 year ago

jungwoo-ha commented 1 year ago

News

ArXiv

jwlee-neubla commented 1 year ago

News

veritas9872 commented 1 year ago

News & Datasets

The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only

ArXiv: https://arxiv.org/abs/2306.01116 HuggingFace: https://huggingface.co/datasets/tiiuae/falcon-refinedweb Website: https://falconllm.tii.ae/

image

image

image

UAE의 TII에서 개발한 Falcon 모델이 최근 LLM 리더보드를 휩쓸면서 이목을 끌었는데 데이터 정제 과정에 대한 논문을 공개했습니다. 가장 중요한 내용은 웹 데이터만을 사용하고 curated data 없이도 양질의 데이터를 추출할 수 있으며 데이터의 양이 12% 이하로 줄어들어도 SOTA 모델을 만들 수 있다는 점입니다.

SlimPajama: A 627B token cleaned and deduplicated version of RedPajama

Blog: https://www.cerebras.net/blog/slimpajama-a-627b-token-cleaned-and-deduplicated-version-of-redpajama HuggingFace: https://huggingface.co/datasets/cerebras/SlimPajama-627B GitHub: https://github.com/Cerebras/modelzoo/tree/main/modelzoo/transformers/data_processing/slimpajama

image

SRAM으로만 구성된 거대한 칩을 만든 것으로 유명한 Cerebras에서 SlimPajama 데이터셋을 공개했습니다. 몇 달 전 오픈소스로 LLaMa와 동일한 방법론을 적용하되 법적 문제가 없도록 구성한 데이터를 또다시 cleansing하여 약 절반 가량으로 줄였습니다.

지금까지의 LLaMa 등 데이터 중복 제거 방법론을 확인했을 때 미비한 점이 많아 불필요한 metadata 제거 및 코드 중복 제거 시 데이터가 절반으로 줄었음에도 유사한 성능을 확인할 수 있었습니다.

PokemonChat: Auditing ChatGPT for Pokémon Universe Knowledge

ArXiv: https://arxiv.org/abs/2306.03024

LLM의 Hallucination을 검증하기 위한 매우 흥미로운 방법이 소개되었습니다. 포켓몬 세계관에 대해 ChatGPT에 대해 질문을 하고 답변 검증 및 adversarial attack에 대한 취약성을 확인할 수 있었습니다.

내용적으로는 이미 모든 정보가 알려진 닫힌 세계에 대한 질의응답을 하게 함으로써 검증을 쉽게 할 수 있다는 점이고 실용적인 관점에서 유저들에게 LLM의 검증을 ~무료로~ crowdsourcing 할 수 있는 아이디어를 제시함과 동시에 LLM을 활용할 방안을 찾는데 도움이 된다고 생각됩니다.

Research

Mechanic: A Learning Rate Tuner

image image

ArXiv: https://arxiv.org/abs/2306.00144

Blockwise Parallel Transformer for Long Context Large Models

ArXiv: https://arxiv.org/abs/2305.19370 GitHub: https://github.com/lhao499/blockwise-parallel-transformer

image image image image