Open jungwoo-ha opened 1 year ago
OpenAI CEO calls for global cooperation to regulate AI
Adobe Express Gets Generative AI for Flashy Fliers, Social Videos
ArXiv: https://arxiv.org/abs/2306.01116 HuggingFace: https://huggingface.co/datasets/tiiuae/falcon-refinedweb Website: https://falconllm.tii.ae/
UAE의 TII에서 개발한 Falcon 모델이 최근 LLM 리더보드를 휩쓸면서 이목을 끌었는데 데이터 정제 과정에 대한 논문을 공개했습니다. 가장 중요한 내용은 웹 데이터만을 사용하고 curated data 없이도 양질의 데이터를 추출할 수 있으며 데이터의 양이 12% 이하로 줄어들어도 SOTA 모델을 만들 수 있다는 점입니다.
Blog: https://www.cerebras.net/blog/slimpajama-a-627b-token-cleaned-and-deduplicated-version-of-redpajama HuggingFace: https://huggingface.co/datasets/cerebras/SlimPajama-627B GitHub: https://github.com/Cerebras/modelzoo/tree/main/modelzoo/transformers/data_processing/slimpajama
SRAM으로만 구성된 거대한 칩을 만든 것으로 유명한 Cerebras에서 SlimPajama 데이터셋을 공개했습니다. 몇 달 전 오픈소스로 LLaMa와 동일한 방법론을 적용하되 법적 문제가 없도록 구성한 데이터를 또다시 cleansing하여 약 절반 가량으로 줄였습니다.
지금까지의 LLaMa 등 데이터 중복 제거 방법론을 확인했을 때 미비한 점이 많아 불필요한 metadata 제거 및 코드 중복 제거 시 데이터가 절반으로 줄었음에도 유사한 성능을 확인할 수 있었습니다.
ArXiv: https://arxiv.org/abs/2306.03024
LLM의 Hallucination을 검증하기 위한 매우 흥미로운 방법이 소개되었습니다. 포켓몬 세계관에 대해 ChatGPT에 대해 질문을 하고 답변 검증 및 adversarial attack에 대한 취약성을 확인할 수 있었습니다.
내용적으로는 이미 모든 정보가 알려진 닫힌 세계에 대한 질의응답을 하게 함으로써 검증을 쉽게 할 수 있다는 점이고 실용적인 관점에서 유저들에게 LLM의 검증을 ~무료로~ crowdsourcing 할 수 있는 아이디어를 제시함과 동시에 LLM을 활용할 방안을 찾는데 도움이 된다고 생각됩니다.
ArXiv: https://arxiv.org/abs/2306.00144
ArXiv: https://arxiv.org/abs/2305.19370 GitHub: https://github.com/lhao499/blockwise-parallel-transformer
News
ArXiv