请问上下文16k模型的微调训练是否使用了8bit量化 - Githubissues

ymcui / Chinese-LLaMA-Alpaca-2

中文LLaMA-2 & Alpaca-2大模型二期项目 + 64K超长上下文模型 (Chinese LLaMA-2 & Alpaca-2 LLMs with 64K long context models)

Apache License 2.0

7.01k stars 571 forks source link

请问上下文16k模型的微调训练是否使用了8bit量化 #460

Closed Junpliu closed 7 months ago

Junpliu commented 7 months ago

提交前必须检查以下项目

[X] 请确保使用的是仓库最新代码（git pull），一些问题已被解决和修复。
[X] 我已阅读项目文档和FAQ章节并且已在Issue中对问题进行了搜索，没有找到相似问题和解决方案。
[X] 第三方插件问题：例如llama.cpp、LangChain、text-generation-webui等，同时建议到对应的项目中查找解决方案。

问题类型

模型训练与精调

基础模型

Chinese-LLaMA-2-16K (7B/13B)

操作系统

Linux

详细描述问题

https://github.com/ymcui/Chinese-LLaMA-Alpaca-2/wiki/sft_scripts_zh

这个脚本的max_seq_length只有512，请问16k模型是用这个脚本训练的吗？

依赖情况（代码类问题务必提供）

# 请在此处粘贴依赖情况（请粘贴在本代码块里）

运行日志或截图

# 请在此处粘贴运行日志（请粘贴在本代码块里）

iMountTai commented 7 months ago

是当前脚本训练的。

Junpliu commented 7 months ago

是当前脚本训练的。

请问是只需要把model_input_length改成16k吗，需要使用training_args.load_in_kbits=4 / 8 量化选项吗

iMountTai commented 7 months ago

不需要，但是使用了deepspeed zero3、flash-attention 2等策略。另外还要根据你的方案初始化你的模型，比如PI方法要先做线性插值。