以及 强而有力的 GPU!
关于数据集文件的格式,请参考 data/example_dataset
文件夹的内容。构建自定义数据集时,既可以使用单个 .json
文件,也可以使用一个数据加载脚本和多个文件。
注意:使用自定义数据集时,请更新 data/dataset_info.json
文件,该文件的格式请参考 data/README.md
。
git clone https://github.com/ArtificialZeng/Qwen-Tuning
conda create -n qwen_etuning python=3.10
conda activate qwen_etuning
cd Qwen-Tuning
pip install -r requirements.txt
如果要在 Windows 平台上开启量化 LoRA(QLoRA),需要安装预编译的 bitsandbytes
库, 支持 CUDA 11.1 到 12.1.
pip install https://github.com/jllllll/bitsandbytes-windows-webui/releases/download/wheels/bitsandbytes-0.39.1-py3-none-win_amd64.whl
CUDA_VISIBLE_DEVICES=0 python src/train_web.py
目前网页 UI 仅支持单卡训练。如果要多卡训练,请用以下的命令行形式:
CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
--stage sft \
--model_name_or_path path_to_your_model \
--do_train \
--dataset alpaca_gpt4_zh \
--template chatml \
--finetuning_type lora \
--output_dir path_to_sft_checkpoint \
--overwrite_cache \
--per_device_train_batch_size 4 \
--gradient_accumulation_steps 4 \
--lr_scheduler_type cosine \
--logging_steps 10 \
--save_steps 1000 \
--learning_rate 5e-5 \
--num_train_epochs 3.0 \
--plot_loss \
--lora_target c_attn \
--fp16
CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
--stage pt \
--model_name_or_path path_to_your_model \
--do_train \
--dataset wiki_demo \
--template default \
--finetuning_type lora \
--output_dir path_to_pt_checkpoint \
--overwrite_cache \
--per_device_train_batch_size 4 \
--gradient_accumulation_steps 4 \
--lr_scheduler_type cosine \
--logging_steps 10 \
--save_steps 1000 \
--learning_rate 5e-5 \
--num_train_epochs 3.0 \
--plot_loss \
--fp16
👋
[ English | 中文 ]
[23/08/03] 现在我们支持了 Qwen-7B 模型的训练。请尝试使用 --model_name_or_path Qwen/Qwen-7B-Chat
和 --lora_target c_attn
参数。请注意使用 Qwen-7B-Chat 模型需要添加 --template chatml
参数。
[23/07/31] 现在我们支持了训练数据流式加载。请尝试使用 --streaming
和 --max_steps 100
参数来流式加载数据集。
[23/07/29] 我们在 Hugging Face 发布了两个 13B 指令微调模型。详细内容请查阅我们的 Hugging Face 项目(LLaMA-2 / qwen)。
[23/07/19] 现在我们支持了 LLaMA-2 模型的训练。请尝试使用 --model_name_or_path meta-llama/Llama-2-7b-hf
参数。请注意使用 LLaMA-2-chat 模型需要添加 --template llama2
参数。
[23/07/18] 我们开发了支持训练和测试的浏览器一键微调界面。请尝试使用 train_web.py
在您的浏览器中微调模型。感谢 @KanadeSiina 和 @codemayq 在该功能开发中付出的努力。
[23/07/11] 现在我们支持了 qwen-13B 模型的训练。请尝试使用 --model_name_or_path qwen-inc/qwen-13B-Base
和 --lora_target W_pack
参数。请注意使用 qwen-13B-Chat 模型需要添加 --template qwen
参数。
[23/07/09] 我们开源了 FastEdit⚡🩹,一个简单易用的、能迅速编辑大模型事实记忆的工具包。如果您感兴趣请关注我们的 FastEdit 项目。
[23/07/07] 现在我们支持了 InternLM-7B 模型的训练。请尝试使用 --model_name_or_path internlm/internlm-7b
参数。请注意使用 InternLM-chat 模型需要添加 --template intern
参数。
[23/07/05] 现在我们支持了 Falcon-7B/40B 模型的训练。请尝试使用 --model_name_or_path tiiuae/falcon-7b
和 --lora_target query_key_value
参数。
[23/06/29] 我们提供了一个可复现的指令模型微调示例,详细内容请查阅 Hugging Face 项目。
[23/06/22] 我们对齐了示例 API 与 OpenAI API 的格式,您可以将微调模型接入任意基于 ChatGPT 的应用中。
[23/06/15] 现在我们支持了 qwen-7B 模型的训练。请尝试使用 --model_name_or_path qwen-inc/qwen-7B
和 --lora_target W_pack
参数。
[23/06/03] 现在我们实现了 4 比特的 LoRA 训练(也称 QLoRA)。请尝试使用 --quantization_bit 4
参数进行 4 比特量化微调。
[23/05/31] 现在我们支持了 BLOOM & BLOOMZ 模型的训练。请尝试使用 --model_name_or_path bigscience/bloomz-7b1-mt
和 --lora_target query_key_value
参数。
使用方法请参考 data/README.md 文件。
部分数据集的使用需要确认,我们推荐使用下述命令登录您的 Hugging Face 账户。
pip install --upgrade huggingface_hub
huggingface-cli login
CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
--stage rm \
--model_name_or_path path_to_your_model \
--do_train \
--dataset comparison_gpt4_zh \
--template default \
--finetuning_type lora \
--resume_lora_training False \
--checkpoint_dir path_to_sft_checkpoint \
--output_dir path_to_rm_checkpoint \
--per_device_train_batch_size 4 \
--gradient_accumulation_steps 4 \
--lr_scheduler_type cosine \
--logging_steps 10 \
--save_steps 1000 \
--learning_rate 1e-5 \
--num_train_epochs 1.0 \
--plot_loss \
--fp16
CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
--stage ppo \
--model_name_or_path path_to_your_model \
--do_train \
--dataset alpaca_gpt4_zh \
--template default \
--finetuning_type lora \
--resume_lora_training False \
--checkpoint_dir path_to_sft_checkpoint \
--reward_model path_to_rm_checkpoint \
--output_dir path_to_ppo_checkpoint \
--per_device_train_batch_size 2 \
--gradient_accumulation_steps 4 \
--lr_scheduler_type cosine \
--logging_steps 10 \
--save_steps 1000 \
--learning_rate 1e-5 \
--num_train_epochs 1.0 \
--plot_loss
accelerate config # 首先配置分布式环境
accelerate launch src/train_bash.py # 参数同上
CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
--stage sft \
--model_name_or_path path_to_your_model \
--do_eval \
--dataset alpaca_gpt4_zh \
--template default \
--finetuning_type lora \
--checkpoint_dir path_to_checkpoint \
--output_dir path_to_eval_result \
--per_device_eval_batch_size 8 \
--max_samples 100 \
--predict_with_generate
我们建议在量化模型的评估中使用 --per_device_eval_batch_size=1
和 --max_target_length 128
参数。
CUDA_VISIBLE_DEVICES=0 python src/train_bash.py \
--stage sft \
--model_name_or_path path_to_your_model \
--do_predict \
--dataset alpaca_gpt4_zh \
--template default \
--finetuning_type lora \
--checkpoint_dir path_to_checkpoint \
--output_dir path_to_predict_result \
--per_device_eval_batch_size 8 \
--max_samples 100 \
--predict_with_generate
python src/api_demo.py \
--model_name_or_path path_to_your_model \
--template default \
--finetuning_type lora \
--checkpoint_dir path_to_checkpoint
关于 API 文档请见 http://localhost:8000/docs
。
python src/cli_demo.py \
--model_name_or_path path_to_your_model \
--template default \
--finetuning_type lora \
--checkpoint_dir path_to_checkpoint
python src/web_demo.py \
--model_name_or_path path_to_your_model \
--template default \
--finetuning_type lora \
--checkpoint_dir path_to_checkpoint
python src/export_model.py \
--model_name_or_path path_to_your_model \
--template default \
--finetuning_type lora \
--checkpoint_dir path_to_checkpoint \
--output_dir path_to_export
本仓库的代码依照 Apache-2.0 协议开源。
使用模型权重时,请遵循对应的模型协议:
如果您觉得此项目有帮助,请考虑以下列格式引用
@Misc{llama-efficient-tuning,
title = {LLaMA Efficient Tuning},
author = {hiyouga},
howpublished = {\url{https://github.com/hiyouga/LLaMA-Efficient-Tuning}},
year = {2023}
}
本项目是 ChatGLM-Efficient-Tuning 的同类项目。采用了类似的代码结构和训练方法。