Open gggdroa opened 9 months ago
1.m3e最大长度是多少呢?按照文本字算的还是token呀? 2.如果是长文本的话按短句切分并保存到embedding库后续计算效果会更加好一点吗?
按照 token 计算,最大的 token 数量为 512 嗯嗯,分 chunk 会好一点
好的谢谢
做问答检索的话,是直接计算就行?不需要提示语句吧? 场景是:用户输入一个问题,返回相关的文本段落。
嗯嗯,是的。直接计算就行,也不需要提示语句。
请问一下,512个token大概多少个字符或者汉字呢?
大概就是 512 个汉字
1.m3e最大长度是多少呢?按照文本字算的还是token呀? 2.如果是长文本的话按短句切分并保存到embedding库后续计算效果会更加好一点吗?