Closed JachinLin2022 closed 9 months ago
只在layer7和11加入Adapter是进行了layer最优化的搜索吗?还是出于减少参数的考虑?
你好 @JachinLin2022 ,
是的,两者都有考虑。一方面只在7和11层加入Adapter可以减少参数的数量,提升训练的效率;另一方面,我们在实验的初期进行了一系列以RoBERTa-large为基础模型的尝试,发现在这两层中加入Adapter可以取得效果和效率的平衡。对于不同的基础模型,可能需要使用不同的Layer设置。
只在layer7和11加入Adapter是进行了layer最优化的搜索吗?还是出于减少参数的考虑?