Closed neavo closed 3 months ago
现在的代码中请求的 max_tokens 是固定值 512,这个修改解决两个问题:
1、用户设置较小的token阈值时 在少数特定情况下,比如模型出现退化或者幻觉时,回复会撑爆这里设置的值 这个时候,如果服务器端ctx设置的较低(以配合应用内较低的token限制值),就会撑爆上下文,导致翻译缓慢或者结果异常
2、用户设置设置较大的token阈值时 翻译结果只会输出512个token,导致结果被截断,无法通过校验,翻译失败
通过同步调整,确保只要应用内token数阈值不超过服务器端ctx的1/2,那么就一定不会撑爆上下文
现在的代码中请求的 max_tokens 是固定值 512,这个修改解决两个问题:
1、用户设置较小的token阈值时 在少数特定情况下,比如模型出现退化或者幻觉时,回复会撑爆这里设置的值 这个时候,如果服务器端ctx设置的较低(以配合应用内较低的token限制值),就会撑爆上下文,导致翻译缓慢或者结果异常
2、用户设置设置较大的token阈值时 翻译结果只会输出512个token,导致结果被截断,无法通过校验,翻译失败
通过同步调整,确保只要应用内token数阈值不超过服务器端ctx的1/2,那么就一定不会撑爆上下文