openppl-public / ppl.llm.serving

Apache License 2.0
122 stars 13 forks source link

适配 ppl.common 最新的逻辑 #35

Closed Hijdk closed 9 months ago

Hijdk commented 9 months ago
  1. ppl.common 最新的代码里面StaticThreadPool 有一些改动,导致serving会卡住。
  2. 如果请求的text长度大于配置的max_tokens_per_step会导致这个请求一直卡在那,不反回结果,也不能再服务别的请求, 所以直接让这个请求得到调度并快速返回。
Alcanderian commented 9 months ago
  1. fixed at #34
Alcanderian commented 9 months ago
  1. 这样修改代码会让一些服务不能被服务到,只需要将
    if (check_res.max_tokens_per_step > worker_config_.max_tokens_per_step) {
            return false;
        }

    移动到667行check_res.first_fill_len = req.token_id_list.size();前面即可

感谢您的贡献,辛苦将ppl.common的pool wait修改撤销,然后再次修正问题2的逻辑~

Hijdk commented 9 months ago
  1. 这样修改代码会让一些服务不能被服务到,只需要将
if (check_res.max_tokens_per_step > worker_config_.max_tokens_per_step) {
            return false;
        }

移动到667行check_res.first_fill_len = req.token_id_list.size();前面即可

感谢您的贡献,辛苦将ppl.common的pool wait修改撤销,然后再次修正问题2的逻辑~

done