[Feature Request]: 我的使用场景需要实时计算PPL,但是发现没有比huggingface原生计算更方便的框架

OpenBMB / MiniCPM

MiniCPM-2B: An end-side LLM outperforming Llama2-13B.

Apache License 2.0

4.38k stars 313 forks source link

[Feature Request]: 我的使用场景需要实时计算PPL,但是发现没有比huggingface原生计算更方便的框架 #150

Closed ShadowTeamCN closed 1 week ago

ShadowTeamCN commented 3 weeks ago

Feature request / 功能建议

MiniCPM在小模型里面很强,至少在评估中文文本流畅度方面, 发现是小模型中最强的但现在有个问题是部署起来GPU利用率不高, 自己找了一下支持MiniCPM推理的框架,也没有成功 vllm 可以用logprob模拟,但是这样跑起来速度更慢了 fastllm有一个response_logits接口,用下来应该是generate文本后的logits llama.cpp inferflow 都有perplexity.cpp , 但改起来也特别麻烦不知道官方有什么建议么?

LDLINGLINGLING commented 1 week ago

你是每个句子计算一次还是想每个tokne计算一次啊，每个句子计算一次是有的，可以操考autoawq中的例子进行修改https://github.com/casper-hansen/AutoAWQ/blob/main/awq/evaluation/eval_utils.py

ShadowTeamCN commented 4 days ago

你是每个句子计算一次还是想每个tokne计算一次啊，每个句子计算一次是有的，可以操考autoawq中的例子进行修改https://github.com/casper-hansen/AutoAWQ/blob/main/awq/evaluation/eval_utils.py

嗯嗯,这个算法和我目前使用的是一样的, 目前stuck的点在于不使用原生的transformers,结合更快的部署推理框架使用, 获取logits不太方便, 有的支持logprob 自己算完整体速度还不如原生transformers