wangyuxinwhy / uniem

unified embedding model
Apache License 2.0
826 stars 64 forks source link

带有指令的数据集上的微调 #97

Open imathg opened 1 year ago

imathg commented 1 year ago

🚀 The feature

代码里面,对medi数据集的使用貌似使用'\n'拼接了指令和文本;请问有使用instruction-embedding的训练方法吗(即输入时拼接指令、文本,但最后句子表征是仅仅在文本的token上计算last mean pooling)

wangyuxinwhy commented 1 year ago

尝试过,我们自己评测下来,在 MTEB 上平均提高 1 个多点。但考虑到指令本身需要额外的设计,就没有采用。