Closed FuturePrayer closed 3 months ago
目前看来加大max_tokens可以解决,但类似“🤖 Who Am I?"这种回答怎么也不会超过50tokens吧?
"usage": {
"prompt_tokens": 106,
"completion_tokens": 2,
"total_tokens": 108
}
返回的 usage 可以看到 token 数,max_tokens 是 total_tokens 的最大限制
配合open webui使用,open webui会使用特定提示词让大模型为当前对话取名,但glm4-9b(INT8量化)返回了空字符串。 请求报文:
响应报文:
stream设置为true时依然会返回空值。用这个报文请求智谱官方的glm-4-air、glm-4-flash等模型均能正常返回结果。