THUIR / T2Ranking

T2Ranking: A large-scale Chinese benchmark for passage ranking.
https://huggingface.co/datasets/THUIR/T2Ranking
142 stars 9 forks source link

通用段落排序模型怎么提升效果 #10

Closed YYGe01 closed 1 year ago

YYGe01 commented 1 year ago

作者你好,感谢开源。 我是个这方面的新手。有几个问题想咨询下。 一是,我看您也开源了模型,我想用这个开源模型做领域内的段落排序,领域内的段落大概20多万,每个段落大概100字左右。后续我想继续提升效果,我应该如何做呢,是否需要标注领域内的QA数据,在开源模型基础上做微调呢,但是我感觉就算标注领域内QA数据,也不会太多,顶多几千条,个人感觉微调估计不会有什么效果,可能效果还会倒退。

二是,我看你统计了中文的段落排序开源数据集,但各家都在自己的数据集上做评测,问下是否可以将所有的数据集搜集起来,汇总,训练一个更通用,更强的模型呢。

三是,我想咨询下一般的关键词排序的算法,如tfidf,es,bim25等算法,是否比排序模型差呢,谢谢

Deriq-Qian-Dong commented 1 year ago

你好,我看这些问题和这个repo的代码没有关系,所以需要你自己探索一下哈~ 第一个和第二个我也不确定,第三个问题在in domain的数据上,sparse retrieval是要比dense retrieval/ranking差很多的。