感谢分享代码！有个疑问是为什么只在layer 7和11加入Adapter？

tianyang-x / Mixture-of-Domain-Adapters

Codebase for ACL 2023 paper "Mixture-of-Domain-Adapters: Decoupling and Injecting Domain Knowledge to Pre-trained Language Models' Memories"

MIT License

45 stars 1 forks source link

Closed JachinLin2022 closed 9 months ago

JachinLin2022 commented 1 year ago

只在layer7和11加入Adapter是进行了layer最优化的搜索吗？还是出于减少参数的考虑？

tianyang-x commented 1 year ago

你好 @JachinLin2022 ，

是的，两者都有考虑。一方面只在7和11层加入Adapter可以减少参数的数量，提升训练的效率；另一方面，我们在实验的初期进行了一系列以RoBERTa-large为基础模型的尝试，发现在这两层中加入Adapter可以取得效果和效率的平衡。对于不同的基础模型，可能需要使用不同的Layer设置。