tianyang-x / Mixture-of-Domain-Adapters

Codebase for ACL 2023 paper "Mixture-of-Domain-Adapters: Decoupling and Injecting Domain Knowledge to Pre-trained Language Models' Memories"
MIT License
45 stars 1 forks source link

感谢分享代码!有个疑问是为什么只在layer 7和11加入Adapter? #4

Closed JachinLin2022 closed 9 months ago

JachinLin2022 commented 1 year ago

只在layer7和11加入Adapter是进行了layer最优化的搜索吗?还是出于减少参数的考虑?

tianyang-x commented 1 year ago

你好 @JachinLin2022 ,

是的,两者都有考虑。一方面只在7和11层加入Adapter可以减少参数的数量,提升训练的效率;另一方面,我们在实验的初期进行了一系列以RoBERTa-large为基础模型的尝试,发现在这两层中加入Adapter可以取得效果和效率的平衡。对于不同的基础模型,可能需要使用不同的Layer设置。