请教下论文中的实验

TencentARC / LLaMA-Pro

[ACL 2024] Progressive LLaMA with Block Expansion.

https://tencentarc.github.io/LLaMA-Pro/

Apache License 2.0

481 stars 35 forks source link

请教下论文中的实验 #24

Closed ChrisXULC closed 7 months ago

ChrisXULC commented 7 months ago

请问作者是否有对比llama pro 和相同数据集上正常CPT后模型的效果嘛，谢谢

hills-code commented 7 months ago

我们在ablation中有在法律语料库上进行这个实验，可以参考一下。由于在数学代码的大的数据集上完整ft太耗费资源（要tune所有参数，我们的setting只用tune added blocks），没有进行这个实验。不过最近看到Yi有做类似实验，他也是做了深度扩展，并且是在数学代码数据集上进行的，他的结论也是深度扩展后CPT的效果会好于FT（https://huggingface.co/01-ai/Yi-9B）