baidubce / app-builder

appbuilder-sdk, 千帆AppBuilder-SDK帮助开发者灵活、快速的搭建AI原生应用
https://appbuilder.cloud.baidu.com/
Apache License 2.0
460 stars 117 forks source link

DocParser没有返回表格数据 #459

Open m220745 opened 3 months ago

m220745 commented 3 months ago

如题: 使用示例中的pdf和代码,返回的结果中表格和标题数据都是空,请问这是Bug吗?还是sdk版本不对? image 安装的sdk版本是:appbuilder-sdk==0.9.1 image

m220745 commented 3 months ago

经过debug发现是PageContent对象参数名不一致引起的,前面加上page_即可: titles --> page_titles tables --> page_tables image

m220745 commented 3 months ago

另外发现tables处理成Markdown结构时,此处不应该set来去重,set 数据结构是无序的,set集合会自动去除重复元素,但不保留原始列表的顺序,可能会导致转换后的表格元素错位。

image

源文档: image

转成Markdown后: image