ymcui / Chinese-LLaMA-Alpaca-2

中文LLaMA-2 & Alpaca-2大模型二期项目 + 64K超长上下文模型 (Chinese LLaMA-2 & Alpaca-2 LLMs with 64K long context models)
Apache License 2.0
7.01k stars 571 forks source link

请问上下文16k模型的微调训练是否使用了8bit量化 #460

Closed Junpliu closed 7 months ago

Junpliu commented 7 months ago

提交前必须检查以下项目

问题类型

模型训练与精调

基础模型

Chinese-LLaMA-2-16K (7B/13B)

操作系统

Linux

详细描述问题

https://github.com/ymcui/Chinese-LLaMA-Alpaca-2/wiki/sft_scripts_zh

这个脚本的max_seq_length只有512,请问16k模型是用这个脚本训练的吗?

依赖情况(代码类问题务必提供)

# 请在此处粘贴依赖情况(请粘贴在本代码块里)

运行日志或截图

# 请在此处粘贴运行日志(请粘贴在本代码块里)
iMountTai commented 7 months ago

是当前脚本训练的。

Junpliu commented 7 months ago

是当前脚本训练的。

请问是只需要把model_input_length改成16k吗,需要使用training_args.load_in_kbits=4 / 8 量化选项吗

iMountTai commented 7 months ago

不需要,但是使用了deepspeed zero3、flash-attention 2等策略。另外还要根据你的方案初始化你的模型,比如PI方法要先做线性插值。