Closed xiaotianxt closed 3 months ago
SlidingWindowLimiter
Limiter
GetServiceModelDetailsLimit
在原先的实现中,QPM 和 RPM 的 limit 会被简单处理为 value / 60 的 QPS。
例如,groq 的单个模型请求限制是 30 QPM,会被转化为 0.5 QPS,进而导致模型不可用。
新实现使用滑动窗口算法,更精确地限制任意 60 秒内的请求数,更贴近后端服务的实际行为。
顺便发现 RPM 在之前配置之下是不起作用的,也修复了。
好的,感谢!
基于滑动窗口算法实现真正的 QPM/RPM 支持
主要变更
SlidingWindowLimiter
实现 QPM/RPM 限流Limiter
结构体和相关方法以支持新的限流器GetServiceModelDetailsLimit
函数,直接返回 QPM 而非转换为 QPS变更原因
在原先的实现中,QPM 和 RPM 的 limit 会被简单处理为 value / 60 的 QPS。
例如,groq 的单个模型请求限制是 30 QPM,会被转化为 0.5 QPS,进而导致模型不可用。
新实现使用滑动窗口算法,更精确地限制任意 60 秒内的请求数,更贴近后端服务的实际行为。
注意事项
SlidingWindowLimiter
的实现和GetServiceModelDetailsLimit
的变更