随着 Google 发布了 Gemini Pro Vision,我在思考能否将其用来解决 RAG 中经典的问题,扫描 PDF 中的表格识别和转换为 Markdown 格式。
结论先行
使用 Few-shot 可以达到比较完美的识别效果。
英文和数据的识别较好。
中文 OCR 识别能力较弱,无法使用。
Prompt
我们使用 ai.google.dev,编写 Structured Prompt 如下:
Model: Gemini Pro Vision
Temperature: 0
Prompt 正文:
Please perform OCR on the image and convert it to Markdown table.
- Correctly convert tables and recheck the header columns of the tables.
- Use ```markdown``` code block to wrap the output.
随着 Google 发布了 Gemini Pro Vision,我在思考能否将其用来解决 RAG 中经典的问题,扫描 PDF 中的表格识别和转换为 Markdown 格式。
结论先行
Prompt
我们使用 ai.google.dev,编写 Structured Prompt 如下:
Model: Gemini Pro Vision Temperature: 0
Prompt 正文:
Examples
为了提高识别效果,尤其是解决在多行换行识别逻辑的问题,需要增加示例。
Input:
Output:
运行结果
运行 1
Input:
Output:(下划线是github markdown 语法的问题)
表 4-1 续
0.61~0.68
0.79~0.89
0.51~0.73
20
20
10
0.72~1.10
3.55~3.93
10.3~11.3
11.5~12.5
0.45~0.52
0.52~0.60
0.63~0.69
0.76~0.90
4
4
4
4
运行 2
Input:
Output:
运行 3
Input:
Output: