Closed ShadowTeamCN closed 1 week ago
你是每个句子计算一次还是想每个tokne计算一次啊,每个句子计算一次是有的,可以操考autoawq中的例子进行修改https://github.com/casper-hansen/AutoAWQ/blob/main/awq/evaluation/eval_utils.py
你是每个句子计算一次还是想每个tokne计算一次啊,每个句子计算一次是有的,可以操考autoawq中的例子进行修改https://github.com/casper-hansen/AutoAWQ/blob/main/awq/evaluation/eval_utils.py
嗯嗯,这个算法和我目前使用的是一样的, 目前stuck的点在于不使用原生的transformers,结合更快的部署推理框架使用, 获取logits不太方便, 有的支持logprob 自己算完整体速度还不如原生transformers
Feature request / 功能建议
MiniCPM在小模型里面很强,至少在评估中文文本流畅度方面, 发现是小模型中最强的 但现在有个问题是部署起来GPU利用率不高, 自己找了一下支持MiniCPM推理的框架,也没有成功 vllm 可以用logprob模拟,但是这样跑起来速度更慢了 fastllm有一个response_logits接口,用下来应该是generate文本后的logits llama.cpp inferflow 都有perplexity.cpp , 但改起来也特别麻烦 不知道官方有什么建议么?