Feature max tokens config

鉴于微信回复有长度限制，现通过环境变量 maxOutput 来限制模型的最大输出。部署时如果不添加该环境变量，则与原程序功能保持一致。

下图中为设置maxOutput=50的极端条件，实际使用可以放宽为 500~1000，1汉字≈2token。选取合适值可以既约束模型输出内容，又能减少拒绝回复率。如果仍然发生截断，可以提示模型“继续”回复：