FlagOpen / FlagEmbedding

Retrieval and Retrieval-augmented LLMs
MIT License
6.79k stars 483 forks source link

怎么使用bge-multilingual-gemma2做数据的向量化呢,我只有docs没有querys,期望相关作者看到能回复一下 #1020

Open aisen-x opened 1 month ago

aisen-x commented 1 month ago

模型使用 这里是一个query和docs的任务 我是需要修改prompt 然后只传docs 只获取docs的embedding嘛

hanhainebula commented 1 month ago

如果你只有 docs 并希望将它们编码为向量,像示例代码中一样调用 encode_corpus() 即可返回相应的向量,可以根据自己的需求调整 max_length 和 batch_size

aisen-x commented 1 month ago

不需要再调整prompt也就是query_instruction_for_retrieval的参数内容嘛?

hanhainebula commented 1 month ago

query_instruction_for_retrieval 只在 encode_queries() 中用到。如果你后续需要使用 query 检索 docs,那么在编码 query 时需要根据任务场景设置相应的 prompt。

aisen-x commented 1 month ago

好的 感谢