shibing624 / text2vec

text2vec, text to vector. 文本向量表征工具,把文本转化为向量矩阵,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT等文本表征、文本相似度计算模型,开箱即用。
https://pypi.org/project/text2vec/
Apache License 2.0
4.46k stars 396 forks source link

能否测试LLM大规模语言模型计算出的text vector 是否能大幅度提高语义匹配的精度 #128

Closed doptime closed 1 year ago

doptime commented 1 year ago

Describe the solution you'd like

现在llama2 这样的ChatGPT开源等效可以计算语义Vector. 比如国内最先进的模型之一baichuan2. 在 https://hub.docker.com/ 可以下载docker image shaowenchen/baichuan2-7b-chat-gguf:Q4_0 在其/docs中就提供了计算语义的Demo

A clear and concise description of what you want to happen. 我期望能评估大模型对语义性能的提升。毕竟这是最新的技术。用一千倍左右的计算量。我期望可以用这个最先进,耗费最多智力投入的技术带来显著重大的语义计算性能的提升

shibing624 commented 1 year ago

baichuan2不能提高语义匹配的精度,建模方法又不是匹配用的。

可以自行看看sgpt的paper,instruct sentence embedding的paper