ymcui / Chinese-LLaMA-Alpaca-2

中文LLaMA-2 & Alpaca-2大模型二期项目 + 64K超长上下文模型 (Chinese LLaMA-2 & Alpaca-2 LLMs with 64K long context models)
Apache License 2.0
7.01k stars 571 forks source link

请教一下 run_pt.sh 和 run_sft.sh 可以训练除了llma2以外的模型的吗 比如我下面贴的 #475

Closed Mr1994 closed 7 months ago

Mr1994 commented 7 months ago

提交前必须检查以下项目

问题类型

模型训练与精调

基础模型

None

操作系统

Linux

详细描述问题


https://huggingface.co/deepseek-ai/deepseek-coder-6.7b-instruct/tree/main
我们现在想训练另外一个模型 那么 run_pt和run_sft.sh 可以训练这个模型吗

依赖情况(代码类问题务必提供)

# 请在此处粘贴依赖情况(请粘贴在本代码块里)

运行日志或截图

# 请在此处粘贴运行日志(请粘贴在本代码块里)
ymcui commented 7 months ago

原则上llama-2结构(不涉及GQA)的都可以训练。至于你说的模型是否是llama-2结构,请自行了解。 另外,你直接用对应模型提供的精调脚本不是更好吗?