OpenBMB / MiniCPM-V

MiniCPM-V 2.6: A GPT-4V Level MLLM for Single Image, Multi Image and Video on Your Phone
Apache License 2.0
12.49k stars 878 forks source link

💡 [REQUEST] - 如何复现 OCRBench 精度,是否有专门的提示词? #503

Closed GarrickLin closed 2 months ago

GarrickLin commented 2 months ago

起始日期 | Start Date

No response

实现PR | Implementation PR

No response

相关Issues | Reference Issues

No response

摘要 | Summary

以KIE任务为例,是否有专门的提示词?

基本示例 | Basic Example

nothing

缺陷 | Drawbacks

nothing

未解决问题 | Unresolved questions

No response

Cuiunbo commented 2 months ago

没有的/ 我们的测试环境时, 使用 https://github.com/open-compass/VLMEvalKit/tree/main/vlmeval 在 A100 *8 卡下 进行推理得到的

ZhonghaoLu commented 2 months ago

我使用vllm部署,调用api的方式,在ocrbench提供的框架下,最高只能跑到807分,达不到官方的852分(A100 *4)。同时在pdf2txt任务上,ocr幻觉还好,但是指令遵循能力不强,无法像ocr准确还原;总是出现,标题,正文等格式,猜测在训练时使用大量markdown格式。

Cuiunbo commented 2 months ago

在OCR训练中未涉及过多指令, 可能需要尝试较多的prompt,或者可以尝试使用few shot的方法实现您想要的结果。 关于VLLM上复现OCRBench, 请 @HwwwwwwwH 来看一下吧~

HwwwwwwwH commented 2 months ago

我使用vllm部署,调用api的方式,在ocrbench提供的框架下,最高只能跑到807分,达不到官方的852分(A100 *4)。同时在pdf2txt任务上,ocr幻觉还好,但是指令遵循能力不强,无法像ocr准确还原;总是出现,标题,正文等格式,猜测在训练时使用大量markdown格式。

vllm 在线性层的输出会和 HF 上有细微的精度差异,在 bfloat16 下这个差异会更大一些,因此使用 vllm 测试的结果却是可能是不太一样的,近期我会测一个结果出来供参考。 精度差异的问题可以参考:https://zhuanlan.zhihu.com/p/658780653

luyao-cv commented 2 months ago

没有的/ 我们的测试环境时, 使用 https://github.com/open-compass/VLMEvalKit/tree/main/vlmeval 在 A100 *8 卡下 进行推理得到的

你好,我测出来只有839分。

lihytotoro commented 2 months ago

没有的/ 我们的测试环境时, 使用 https://github.com/open-compass/VLMEvalKit/tree/main/vlmeval 在 A100 *8 卡下 进行推理得到的

你好,我测出来只有839分。

您好,感谢您的提问!我们的模型在 OCRBench 上的分数是采用 eval_mm 目录中的 vlmevalkit 进行评测的,请参考 https://github.com/OpenBMB/MiniCPM-V/blob/main/eval_mm/README_zh.md#opencompass 进行评测。目前我们可以确保在 8 卡情况下复现出同样的结果。