Closed GarrickLin closed 2 months ago
没有的/ 我们的测试环境时, 使用 https://github.com/open-compass/VLMEvalKit/tree/main/vlmeval 在 A100 *8 卡下 进行推理得到的
我使用vllm部署,调用api的方式,在ocrbench提供的框架下,最高只能跑到807分,达不到官方的852分(A100 *4)。同时在pdf2txt任务上,ocr幻觉还好,但是指令遵循能力不强,无法像ocr准确还原;总是出现,标题,正文等格式,猜测在训练时使用大量markdown格式。
在OCR训练中未涉及过多指令, 可能需要尝试较多的prompt,或者可以尝试使用few shot的方法实现您想要的结果。 关于VLLM上复现OCRBench, 请 @HwwwwwwwH 来看一下吧~
我使用vllm部署,调用api的方式,在ocrbench提供的框架下,最高只能跑到807分,达不到官方的852分(A100 *4)。同时在pdf2txt任务上,ocr幻觉还好,但是指令遵循能力不强,无法像ocr准确还原;总是出现,标题,正文等格式,猜测在训练时使用大量markdown格式。
vllm 在线性层的输出会和 HF 上有细微的精度差异,在 bfloat16
下这个差异会更大一些,因此使用 vllm 测试的结果却是可能是不太一样的,近期我会测一个结果出来供参考。
精度差异的问题可以参考:https://zhuanlan.zhihu.com/p/658780653
没有的/ 我们的测试环境时, 使用 https://github.com/open-compass/VLMEvalKit/tree/main/vlmeval 在 A100 *8 卡下 进行推理得到的
你好,我测出来只有839分。
没有的/ 我们的测试环境时, 使用 https://github.com/open-compass/VLMEvalKit/tree/main/vlmeval 在 A100 *8 卡下 进行推理得到的
你好,我测出来只有839分。
您好,感谢您的提问!我们的模型在 OCRBench 上的分数是采用 eval_mm 目录中的 vlmevalkit 进行评测的,请参考 https://github.com/OpenBMB/MiniCPM-V/blob/main/eval_mm/README_zh.md#opencompass 进行评测。目前我们可以确保在 8 卡情况下复现出同样的结果。
起始日期 | Start Date
No response
实现PR | Implementation PR
No response
相关Issues | Reference Issues
No response
摘要 | Summary
以KIE任务为例,是否有专门的提示词?
基本示例 | Basic Example
nothing
缺陷 | Drawbacks
nothing
未解决问题 | Unresolved questions
No response