Deeptrain-Community / chatnio

🚀 Next Generation AI One-Stop Internationalization Solution. 🚀 下一代 AI 一站式 B/C 端解决方案,支持 OpenAI,Midjourney,Claude,讯飞星火,Stable Diffusion,DALL·E,ChatGLM,通义千问,腾讯混元,360 智脑,百川 AI,火山方舟,新必应,Gemini,Moonshot 等模型,支持对话分享,自定义预设,云端同步,模型市场,支持弹性计费和订阅计划模式,支持图片解析,支持联网搜索,支持模型缓存,丰富美观的后台管理与仪表盘数据统计。
https://chatnio.com
Apache License 2.0
2.71k stars 446 forks source link

[update] tiktoken base upgrade #191

Closed ohotto closed 1 week ago

ohotto commented 1 month ago

对接了三家中转api

按照对应的人民币价格*10设定了后台价格

但是实际使用时chatnio计算的token远远大于中转api后台的实际值,大约是1.5-3.2倍之间

image

image

例如上述情况,使用模型为gpt-3.5-turbo-0125,中转api价格为 input: 0.0005/ktokens | output: 0.0015/ktokens

16/1000*0.0005+328/1000*0.0015=0.0005

chatnio后台设定价格为 input: 0.005/ktokens | output: 0.015/ktokens,但前台反馈消耗点数 0.014145

0.014145/10 = 0.0014145 >> 0.0005

0.0014145 / 0.0005 = 2.829 倍

即测得chatnio计算token消耗为实际消耗 2.829 倍

经过反复验证,对于gpt3.5、gpt4系列的各种模型都存在上述问题,每次计算的token值倍数还不一致,最低观测到是实际消耗的1.5倍,最高达到3.2倍左右,其余情况集中在2.5-2.9倍之间,最近几次测得的倍数为: 2.57、2.71、2.92、2.51、2.89、2.77、2.98、2.72

项目基于ubuntu-amd64,存在1panel环境,使用docker-compose搭建,使用OpenResty(Nginx)反代,已经尝试切换stable、latest两个镜像都复现该问题

AnnaStreeter commented 1 month ago

开源版目前 Tokenizer 使用 Tiktoken Legacy,关于对齐新版 OpenAI GPT-3 计费是有问题的。商业版无误。商业版下放工作不在我的工作范围内,开源版何时修复待定。

zmh-program commented 1 month ago

不是bug, tiktoken版本没更新 token计算器有出入罢了, 更新一下编码就好