Open imathg opened 1 year ago
代码里面,对medi数据集的使用貌似使用'\n'拼接了指令和文本;请问有使用instruction-embedding的训练方法吗(即输入时拼接指令、文本,但最后句子表征是仅仅在文本的token上计算last mean pooling)
尝试过,我们自己评测下来,在 MTEB 上平均提高 1 个多点。但考虑到指令本身需要额外的设计,就没有采用。
🚀 The feature
代码里面,对medi数据集的使用貌似使用'\n'拼接了指令和文本;请问有使用instruction-embedding的训练方法吗(即输入时拼接指令、文本,但最后句子表征是仅仅在文本的token上计算last mean pooling)