TencentARC / LLaMA-Pro

[ACL 2024] Progressive LLaMA with Block Expansion.
https://tencentarc.github.io/LLaMA-Pro/
Apache License 2.0
481 stars 35 forks source link

请教下论文中的实验 #24

Closed ChrisXULC closed 7 months ago

ChrisXULC commented 7 months ago

请问作者是否有对比llama pro 和 相同数据集上正常CPT后模型的效果嘛,谢谢

hills-code commented 7 months ago

我们在ablation中有在法律语料库上进行这个实验,可以参考一下。由于在数学代码的大的数据集上完整ft太耗费资源(要tune所有参数,我们的setting只用tune added blocks),没有进行这个实验。不过最近看到Yi有做类似实验,他也是做了深度扩展,并且是在数学代码数据集上进行的,他的结论也是深度扩展后CPT的效果会好于FT(https://huggingface.co/01-ai/Yi-9B