Open imdoge opened 5 months ago
好像有点了解了 output_1 = model.encode(sentences_1, return_dense=True, return_sparse=True, return_colbert_vecs=False) output_1['lexical_weights'])是我需要的数据 model.convert_id_to_token(output_1['lexical_weights'])是类似上面的id转token的格式对吗~
好像有点了解了 output_1 = model.encode(sentences_1, return_dense=True, return_sparse=True, return_colbert_vecs=False) output_1['lexical_weights'])是我需要的数据 model.convert_id_to_token(output_1['lexical_weights'])是类似上面的id转token的格式对吗~
Yes
你好,我正在用bge-m3生成的稀疏向量想对接qdrant数据库(我了解官方已有两个其他数据库的对接教程) 生成的稀疏向量格式类似这样
qdrant官方文档说明的稀疏向量传参是这样的: https://qdrant.tech/documentation/concepts/points/
[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 2.0, 0.0, 0.0] can be represented as a sparse vector:
[(6, 1.0), (7, 2.0)] Qdrant uses the following JSON representation throughout its APIs.
The indices and values arrays must have the same length. And the indices must be unique.
但是注意到bge-m3生成的稀疏向量的键值对的key是字符串格式的,即原本文本的分词作为key 上面的indices是key的数组吧?它是number[]格式的
请问怎样把bge-m3生成的稀疏向量,变成qdrant要求的格式呢(为什么key是字符串的)
谢谢!