PaddlePaddle / RocketQA

🚀 RocketQA, dense retrieval for information retrieval and question answering, including both Chinese and English state-of-the-art models.
Apache License 2.0
764 stars 130 forks source link

q_max_seq_len和p_max_seq_len是问答对的最大字长度吗 #84

Open chansonZ opened 1 year ago

chansonZ commented 1 year ago

q_max_seq_len:默认问题字长度最大32 p_max_seq_len:默认答案字长度最大384

ylf-Ng commented 1 year ago

max_seq_len是tokenize之后的最大长度,输入的文本超过该长度会截断。输入长度并没有限制,但RocketQA提供的模型并未在更长的文本上训练,因此长文本检索性能无法保证。

magicleo commented 1 year ago

@ylf-Ng 针对query长度约100,document长度约1000字场景下,做语义匹配搜索,请问推荐的模型是什么?

ylf-Ng commented 1 year ago

@ylf-Ng 针对query长度约100,document长度约1000字场景下,做语义匹配搜索,请问推荐的模型是什么?

长文档之间的语义匹配不建议使用单向量稠密检索模型,可以考虑CITADEL这种多向量稀疏检索模型