Open chansonZ opened 1 year ago
q_max_seq_len:默认问题字长度最大32 p_max_seq_len:默认答案字长度最大384
max_seq_len是tokenize之后的最大长度,输入的文本超过该长度会截断。输入长度并没有限制,但RocketQA提供的模型并未在更长的文本上训练,因此长文本检索性能无法保证。
@ylf-Ng 针对query长度约100,document长度约1000字场景下,做语义匹配搜索,请问推荐的模型是什么?
长文档之间的语义匹配不建议使用单向量稠密检索模型,可以考虑CITADEL这种多向量稀疏检索模型
q_max_seq_len:默认问题字长度最大32 p_max_seq_len:默认答案字长度最大384