千问Qwen微调指南

软件依赖

Python 3.8+ 和 PyTorch 1.13.1+
🤗Transformers, Datasets, Accelerate, PEFT 和 TRL
sentencepiece 和 tiktoken
jieba, rouge-chinese 和 nltk (用于评估)
gradio 和 matplotlib (用于网页端交互)
uvicorn, fastapi 和 sse-starlette (用于 API)

以及 强而有力的 GPU！

如何使用

数据准备（可跳过）

关于数据集文件的格式，请参考 data/example_dataset 文件夹的内容。构建自定义数据集时，既可以使用单个 .json 文件，也可以使用一个数据加载脚本和多个文件。

注意：使用自定义数据集时，请更新 data/dataset_info.json 文件，该文件的格式请参考 data/README.md。

环境搭建（可跳过）

git clone https://github.com/ArtificialZeng/Qwen-Tuning
conda create -n qwen_etuning python=3.10
conda activate qwen_etuning
cd Qwen-Tuning
pip install -r requirements.txt

如果要在 Windows 平台上开启量化 LoRA（QLoRA），需要安装预编译的 bitsandbytes 库, 支持 CUDA 11.1 到 12.1.

pip install https://github.com/jllllll/bitsandbytes-windows-webui/releases/download/wheels/bitsandbytes-0.39.1-py3-none-win_amd64.whl

浏览器一键微调/测试

CUDA_VISIBLE_DEVICES=0 python src/train_web.py

目前网页 UI 仅支持单卡训练。如果要多卡训练，请用以下的命令行形式：

qwen指令监督微调(SFT - 一般这个用的最多，预训练脚本在下面)

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage sft \
    --model_name_or_path path_to_your_model \
    --do_train \
    --dataset alpaca_gpt4_zh \
    --template chatml \
    --finetuning_type lora \
    --output_dir path_to_sft_checkpoint \
    --overwrite_cache \
    --per_device_train_batch_size 4 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type cosine \
    --logging_steps 10 \
    --save_steps 1000 \
    --learning_rate 5e-5 \
    --num_train_epochs 3.0 \
    --plot_loss \
    --lora_target c_attn \
    --fp16

预训练

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage pt \
    --model_name_or_path path_to_your_model \
    --do_train \
    --dataset wiki_demo \
    --template default \
    --finetuning_type lora \
    --output_dir path_to_pt_checkpoint \
    --overwrite_cache \
    --per_device_train_batch_size 4 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type cosine \
    --logging_steps 10 \
    --save_steps 1000 \
    --learning_rate 5e-5 \
    --num_train_epochs 3.0 \
    --plot_loss \
    --fp16

Qwen Efficient Tuning

👋

[ English | 中文 ]

更新日志

[23/08/03] 现在我们支持了 Qwen-7B 模型的训练。请尝试使用 --model_name_or_path Qwen/Qwen-7B-Chat 和 --lora_target c_attn 参数。请注意使用 Qwen-7B-Chat 模型需要添加 --template chatml 参数。

[23/07/31] 现在我们支持了训练数据流式加载。请尝试使用 --streaming 和 --max_steps 100 参数来流式加载数据集。

[23/07/29] 我们在 Hugging Face 发布了两个 13B 指令微调模型。详细内容请查阅我们的 Hugging Face 项目（LLaMA-2 / qwen）。

[23/07/19] 现在我们支持了 LLaMA-2 模型的训练。请尝试使用 --model_name_or_path meta-llama/Llama-2-7b-hf 参数。请注意使用 LLaMA-2-chat 模型需要添加 --template llama2 参数。

[23/07/18] 我们开发了支持训练和测试的浏览器一键微调界面。请尝试使用 train_web.py 在您的浏览器中微调模型。感谢 @KanadeSiina 和 @codemayq 在该功能开发中付出的努力。

[23/07/11] 现在我们支持了 qwen-13B 模型的训练。请尝试使用 --model_name_or_path qwen-inc/qwen-13B-Base 和 --lora_target W_pack 参数。请注意使用 qwen-13B-Chat 模型需要添加 --template qwen 参数。

[23/07/09] 我们开源了 FastEdit⚡🩹，一个简单易用的、能迅速编辑大模型事实记忆的工具包。如果您感兴趣请关注我们的 FastEdit 项目。

[23/07/07] 现在我们支持了 InternLM-7B 模型的训练。请尝试使用 --model_name_or_path internlm/internlm-7b 参数。请注意使用 InternLM-chat 模型需要添加 --template intern 参数。

[23/07/05] 现在我们支持了 Falcon-7B/40B 模型的训练。请尝试使用 --model_name_or_path tiiuae/falcon-7b 和 --lora_target query_key_value 参数。

[23/06/29] 我们提供了一个可复现的指令模型微调示例，详细内容请查阅 Hugging Face 项目。

[23/06/22] 我们对齐了示例 API 与 OpenAI API 的格式，您可以将微调模型接入任意基于 ChatGPT 的应用中。

[23/06/15] 现在我们支持了 qwen-7B 模型的训练。请尝试使用 --model_name_or_path qwen-inc/qwen-7B 和 --lora_target W_pack 参数。

[23/06/03] 现在我们实现了 4 比特的 LoRA 训练（也称 QLoRA）。请尝试使用 --quantization_bit 4 参数进行 4 比特量化微调。

[23/05/31] 现在我们支持了 BLOOM & BLOOMZ 模型的训练。请尝试使用 --model_name_or_path bigscience/bloomz-7b1-mt 和 --lora_target query_key_value 参数。

模型

LLaMA (7B/13B/33B/65B)
LLaMA-2 (7B/13B/70B)
BLOOM & BLOOMZ (560M/1.1B/1.7B/3B/7.1B/176B)
Falcon (7B/40B)
qwen (7B/13B)
InternLM (7B)
Qwen (7B)

微调方法

二次预训练
- 全参数微调
- 部分参数微调
- LoRA
- QLoRA
指令监督微调
- 全参数微调
- 部分参数微调
- LoRA
- QLoRA
人类反馈的强化学习（RLHF）
- LoRA
- QLoRA

数据集

使用方法请参考 data/README.md 文件。

部分数据集的使用需要确认，我们推荐使用下述命令登录您的 Hugging Face 账户。

pip install --upgrade huggingface_hub
huggingface-cli login

奖励模型训练

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage rm \
    --model_name_or_path path_to_your_model \
    --do_train \
    --dataset comparison_gpt4_zh \
    --template default \
    --finetuning_type lora \
    --resume_lora_training False \
    --checkpoint_dir path_to_sft_checkpoint \
    --output_dir path_to_rm_checkpoint \
    --per_device_train_batch_size 4 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type cosine \
    --logging_steps 10 \
    --save_steps 1000 \
    --learning_rate 1e-5 \
    --num_train_epochs 1.0 \
    --plot_loss \
    --fp16

RLHF 训练

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage ppo \
    --model_name_or_path path_to_your_model \
    --do_train \
    --dataset alpaca_gpt4_zh \
    --template default \
    --finetuning_type lora \
    --resume_lora_training False \
    --checkpoint_dir path_to_sft_checkpoint \
    --reward_model path_to_rm_checkpoint \
    --output_dir path_to_ppo_checkpoint \
    --per_device_train_batch_size 2 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type cosine \
    --logging_steps 10 \
    --save_steps 1000 \
    --learning_rate 1e-5 \
    --num_train_epochs 1.0 \
    --plot_loss

多 GPU 分布式训练

accelerate config # 首先配置分布式环境
accelerate launch src/train_bash.py # 参数同上

使用 DeepSpeed ZeRO-2 进行全参数微调的 Accelerate 配置示例

```yaml compute_environment: LOCAL_MACHINE deepspeed_config: gradient_accumulation_steps: 4 gradient_clipping: 0.5 offload_optimizer_device: none offload_param_device: none zero3_init_flag: false zero_stage: 2 distributed_type: DEEPSPEED downcast_bf16: 'no' machine_rank: 0 main_training_function: main mixed_precision: fp16 num_machines: 1 num_processes: 4 rdzv_backend: static same_network: true tpu_env: [] tpu_use_cluster: false tpu_use_sudo: false use_cpu: false ```

指标评估（BLEU分数和汉语ROUGE分数）

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage sft \
    --model_name_or_path path_to_your_model \
    --do_eval \
    --dataset alpaca_gpt4_zh \
    --template default \
    --finetuning_type lora \
    --checkpoint_dir path_to_checkpoint \
    --output_dir path_to_eval_result \
    --per_device_eval_batch_size 8 \
    --max_samples 100 \
    --predict_with_generate

我们建议在量化模型的评估中使用 --per_device_eval_batch_size=1 和 --max_target_length 128 参数。

模型预测

CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
    --stage sft \
    --model_name_or_path path_to_your_model \
    --do_predict \
    --dataset alpaca_gpt4_zh \
    --template default \
    --finetuning_type lora \
    --checkpoint_dir path_to_checkpoint \
    --output_dir path_to_predict_result \
    --per_device_eval_batch_size 8 \
    --max_samples 100 \
    --predict_with_generate

API 服务

python src/api_demo.py \
    --model_name_or_path path_to_your_model \
    --template default \
    --finetuning_type lora \
    --checkpoint_dir path_to_checkpoint

关于 API 文档请见 http://localhost:8000/docs。

命令行测试

python src/cli_demo.py \
    --model_name_or_path path_to_your_model \
    --template default \
    --finetuning_type lora \
    --checkpoint_dir path_to_checkpoint

浏览器测试

python src/web_demo.py \
    --model_name_or_path path_to_your_model \
    --template default \
    --finetuning_type lora \
    --checkpoint_dir path_to_checkpoint

导出微调模型

python src/export_model.py \
    --model_name_or_path path_to_your_model \
    --template default \
    --finetuning_type lora \
    --checkpoint_dir path_to_checkpoint \
    --output_dir path_to_export

TODO

[ ] 实现 flash attention (torch / xformers / flashattn)。
[ ] 在推理阶段使用 Multi-query attention 进行加速。
[ ] 支持 RLHF 的全参数微调。

协议

本仓库的代码依照 Apache-2.0 协议开源。

使用模型权重时，请遵循对应的模型协议：

引用

如果您觉得此项目有帮助，请考虑以下列格式引用

@Misc{llama-efficient-tuning,
  title = {LLaMA Efficient Tuning},
  author = {hiyouga},
  howpublished = {\url{https://github.com/hiyouga/LLaMA-Efficient-Tuning}},
  year = {2023}
}

致谢

本项目是 ChatGLM-Efficient-Tuning 的同类项目。采用了类似的代码结构和训练方法。

ArtificialZeng / Qwen-Tuning

readme