TencentARC / LLaMA-Pro

[ACL 2024] Progressive LLaMA with Block Expansion.
https://tencentarc.github.io/LLaMA-Pro/
Apache License 2.0
482 stars 35 forks source link

finetune_cosmopedia.sh如何训练出来8B模型 #27

Open RuipingWang1986 opened 6 months ago

RuipingWang1986 commented 6 months ago

您好,根据您的指导,我目前已经可以跑通finetune_cosmopedia脚本的训练,但是我发现生成的模型和之前使用的llama2-7B模型规模基本是相同的,并没有增大;另外,按照您论文里提到的,应该是可以自己设计添加多少层,但我在训练脚本中也没有发现。

season1blue commented 1 month ago

我也是同样的问题,请问扩展参数的那部分代码是还没有放出来吗