通用段落排序模型怎么提升效果

作者你好，感谢开源。我是个这方面的新手。有几个问题想咨询下。一是，我看您也开源了模型，我想用这个开源模型做领域内的段落排序，领域内的段落大概20多万，每个段落大概100字左右。后续我想继续提升效果，我应该如何做呢，是否需要标注领域内的QA数据，在开源模型基础上做微调呢，但是我感觉就算标注领域内QA数据，也不会太多，顶多几千条，个人感觉微调估计不会有什么效果，可能效果还会倒退。

二是，我看你统计了中文的段落排序开源数据集，但各家都在自己的数据集上做评测，问下是否可以将所有的数据集搜集起来，汇总，训练一个更通用，更强的模型呢。

三是，我想咨询下一般的关键词排序的算法，如tfidf，es，bim25等算法，是否比排序模型差呢，谢谢

THUIR / T2Ranking

通用段落排序模型怎么提升效果 #10