AkihikoWatanabe commented 1 year ago

URL

https://arxiv.org/abs/2307.09288
Affiliations
- Hugo Touvron, N/A
- Louis Martin, N/A
- Kevin Stone, N/A
- Peter Albert, N/A
- Amjad Almahairi, N/A
- Yasmine Babaei, N/A
- Nikolay Bashlykov, N/A
- Soumya Batra, N/A
- Prajjwal Bhargava, N/A
- Shruti Bhosale, N/A
- Dan Bikel, N/A
- Lukas Blecher, N/A
- Cristian Canton Ferrer, N/A
- Moya Chen, N/A
- Guillem Cucurull, N/A
- David Esiobu, N/A
- Jude Fernandes, N/A
- Jeremy Fu, N/A
- Wenyin Fu, N/A
- Brian Fuller, N/A
- Cynthia Gao, N/A
- Vedanuj Goswami, N/A
- Naman Goyal, N/A
- Anthony Hartshorn, N/A
- Saghar Hosseini, N/A
- Rui Hou, N/A
- Hakan Inan, N/A
- Marcin Kardas, N/A
- Viktor Kerkez, N/A
- Madian Khabsa, N/A
- Isabel Kloumann, N/A
- Artem Korenev, N/A
- Punit Singh Koura, N/A
- Marie-Anne Lachaux, N/A
- Thibaut Lavril, N/A
- Jenya Lee, N/A
- Diana Liskovich, N/A
- Yinghai Lu, N/A
- Yuning Mao, N/A
- Xavier Martinet, N/A
- Todor Mihaylov, N/A
- Pushkar Mishra, N/A
- Igor Molybog, N/A
- Yixin Nie, N/A
- Andrew Poulton, N/A
- Jeremy Reizenstein, N/A
- Rashi Rungta, N/A
- Kalyan Saladi, N/A
- Alan Schelten, N/A
- Ruan Silva, N/A
- Eric Michael Smith, N/A
- Ranjan Subramanian, N/A
- Xiaoqing Ellen Tan, N/A
- Binh Tang, N/A
- Ross Taylor, N/A
- Adina Williams, N/A
- Jian Xiang Kuan, N/A
- Puxin Xu, N/A
- Zheng Yan, N/A
- Iliyan Zarov, N/A
- Yuchen Zhang, N/A
- Angela Fan, N/A
- Melanie Kambadur, N/A
- Sharan Narang, N/A
- Aurelien Rodriguez, N/A
- Robert Stojnic, N/A
- Sergey Edunov, N/A
- Thomas Scialom, N/A
  Abstract
- In this work, we develop and release Llama 2, a collection of pretrained andfine-tuned large language models (LLMs) ranging in scale from 7 billion to 70billion parameters. Our fine-tuned LLMs, called Llama 2-Chat, are optimized fordialogue use cases. Our models outperform open-source chat models on mostbenchmarks we tested, and based on our human evaluations for helpfulness andsafety, may be a suitable substitute for closed-source models. We provide adetailed description of our approach to fine-tuning and safety improvements ofLlama 2-Chat in order to enable the community to build on our work andcontribute to the responsible development of LLMs.
  Translation (by gpt-3.5-turbo)
この研究では、7億から70億のパラメータを持つ事前学習済みおよび微調整済みの大規模言語モデル（LLMs）のコレクションであるLlama 2を開発および公開します。 Llama 2-Chatと呼ばれる私たちの微調整済みLLMsは、対話の使用例に最適化されています。私たちのモデルは、私たちがテストしたほとんどのベンチマークでオープンソースのチャットモデルを上回り、有用性と安全性の人間による評価に基づいて、クローズドソースのモデルの代替として適している可能性があります。私たちは、Llama 2-Chatの微調整と安全性の改善に関するアプローチの詳細な説明を提供し、コミュニティが私たちの研究を基にして作業を進め、LLMsの責任ある開発に貢献できるようにしています。
Summary (by gpt-3.5-turbo)
この研究では、大規模な言語モデルであるLlama 2を開発し、微調整しています。Llama 2-Chatは対話に特化しており、オープンソースのチャットモデルを上回る性能を示しています。安全性の改善にも取り組んでおり、責任ある開発に貢献することを目指しています。

AkihikoWatanabe commented 1 year ago

参考: https://twitter.com/hillbig/status/1681436336451125257?s=46&t=LJIgfuO352oK3zU2FKFpNA

AkihikoWatanabe commented 5 months ago

Llama, およびLlama2では、一般的なTransformer Decoderとは異なり、linear layerの”前に”RMSPropをかませている点が異なる。また、Llama2では、Llamaと比較して

Group Query Attentionの利用 #1271
活性化関数として、ReLUではなく、SwiGLU #1311 の活用
Positional Embeddingとして、RoPE #1310 の活用
より長いContext Windowsでの学習（4k）を実施している。

出典：https://cameronrwolfe.substack.com/p/llama-2-from-the-ground-up

AkihikoWatanabe / paper_notes

Llama 2: Open Foundation and Fine-Tuned Chat Models, Hugo Touvron+, N/A, arXiv'23 #888

URL

Affiliations

Abstract

Translation (by gpt-3.5-turbo)

Summary (by gpt-3.5-turbo)