wangyuxinwhy / uniem

unified embedding model
Apache License 2.0
814 stars 61 forks source link

请教贴:文本最大长度 #114

Open gggdroa opened 9 months ago

gggdroa commented 9 months ago

1.m3e最大长度是多少呢?按照文本字算的还是token呀? 2.如果是长文本的话按短句切分并保存到embedding库后续计算效果会更加好一点吗?

wangyuxinwhy commented 9 months ago
  1. 按照 token 计算,最大的 token 数量为 512
  2. 嗯嗯,分 chunk 会好一点
gggdroa commented 8 months ago
  1. 按照 token 计算,最大的 token 数量为 512
  2. 嗯嗯,分 chunk 会好一点

好的谢谢

做问答检索的话,是直接计算就行?不需要提示语句吧? 场景是:用户输入一个问题,返回相关的文本段落。

wangyuxinwhy commented 8 months ago

嗯嗯,是的。直接计算就行,也不需要提示语句。

twwch commented 8 months ago

请问一下,512个token大概多少个字符或者汉字呢?

wangyuxinwhy commented 6 months ago

大概就是 512 个汉字