[REPOST] 调整 - Token 限制模式下，SakuraLLM 请求的最大tokens数应该与应用设置保持一致

现在的代码中请求的 max_tokens 是固定值 512，这个修改解决两个问题：

1、用户设置较小的token阈值时在少数特定情况下，比如模型出现退化或者幻觉时，回复会撑爆这里设置的值这个时候，如果服务器端ctx设置的较低（以配合应用内较低的token限制值），就会撑爆上下文，导致翻译缓慢或者结果异常

2、用户设置设置较大的token阈值时翻译结果只会输出512个token，导致结果被截断，无法通过校验，翻译失败

通过同步调整，确保只要应用内token数阈值不超过服务器端ctx的1/2，那么就一定不会撑爆上下文

NEKOparapa / AiNiee