Closed ChrisXULC closed 7 months ago
请问作者是否有对比llama pro 和 相同数据集上正常CPT后模型的效果嘛,谢谢
我们在ablation中有在法律语料库上进行这个实验,可以参考一下。由于在数学代码的大的数据集上完整ft太耗费资源(要tune所有参数,我们的setting只用tune added blocks),没有进行这个实验。不过最近看到Yi有做类似实验,他也是做了深度扩展,并且是在数学代码数据集上进行的,他的结论也是深度扩展后CPT的效果会好于FT(https://huggingface.co/01-ai/Yi-9B)
请问作者是否有对比llama pro 和 相同数据集上正常CPT后模型的效果嘛,谢谢