Open DayDreamerEric opened 2 days ago
刚刚拜读了DocGenome,其中「表结构识别」的任务定义是image2latex。
初步猜测,是否是由于训练数据的格式问题导致的呢?
补充: markdown输出存在类似的问题
| 名称 | 产量 (吨) | 环比 | |
| --- | --- | --- | --- |
| | | 增长量 (吨) | 增长率 (\%) |
| 荔枝 | 11 | 1 | 10 |
| 芒果 | 9 | -1 | -10 |
| 香蕉 | 6 | 1 | 20 |
名称 | 产量 (吨) | 环比 | |
---|---|---|---|
增长量 (吨) | 增长率 (\%) | ||
荔枝 | 11 | 1 | 10 |
芒果 | 9 | -1 | -10 |
香蕉 | 6 | 1 | 20 |
命令行:
python demo.py --image_path ./demo.jpg --ckpt_path U4R/StructTable-InternVL2-1B --output_format latex
python demo.py --image_path ./demo.jpg --ckpt_path U4R/StructTable-InternVL2-1B --output_format html
latex输出
GPT-4o转为HTML格式如下:
html输出
latex结果 vs. html结果 可视化对比