microsoft / CompHRDoc

Datasets and Evaluation Scripts for CompHRDoc
https://github.com/microsoft/CompHRDoc
MIT License
19 stars 2 forks source link

如何在自己的文档上实现层级结构的抽取呢? #2

Closed zzzcccxx closed 5 days ago

zzzcccxx commented 4 months ago

您好,非常感谢公开这个项目。最近在学习文档解析,请问我如果想在自己的文档或者图片上应用这个层级解析方法的话,我应该怎么做呢?感谢您的回答

zzzcccxx commented 4 months ago

同时如果我想自己训练一个垂直领域的文档解析方法的话,我该怎么制作数据集并且训练呢?

JarvisUSTC commented 4 months ago

您好,感谢您对我们工作的关注。我们在GitHub中主要将构建的数据集和测评方式给公开,期望学术界能够更加关注文档解析中的多个重要任务。论文中实现的端到端系统已经被实现到微软公司的文档智能的产品方案中。由于微软公司的政策原因,我们没法开源,但是您可以通过订阅微软Azure云服务来使用我们的产品:Document Intelligence Studio - Microsoft Azure。如果您想复现我们的工作,可以按照文档中描述的细节进行复现,或者参考我们的最新工作[2405.11757] DLAFormer: An End-to-End Transformer For Document Layout Analysis (arxiv.org)

JarvisUSTC commented 4 months ago

数据集的标注应该主要包括两类:一类是每个逻辑文本块的框,例如段落的框,表格的框等等;另一类是阅读顺序关系和层级结构关系,例如标注段落之间是否存在阅读顺序关系,或者这个标题是否是另一个标题的子标题等。

zzzcccxx commented 4 months ago

数据集的标注应该主要包括两类:一类是每个逻辑文本块的框,例如段落的框,表格的框等等;另一类是阅读顺序关系和层级结构关系,例如标注段落之间是否存在阅读顺序关系,或者这个标题是否是另一个标题的子标题等。

请问有什么软件或者工具可以辅助我来进行这些数据的标注吗?

JarvisUSTC commented 4 months ago

目前有一些自动化文档版面分析的标注方法,但是需要有latex source code,例如https://github.com/InsightsNet/texannotate 这些自动化的标注方法基本只能标注到page-level structure analysis,例如段落框的标注,以及阅读顺序的标注。对于document-level structure analysis,目前我没有看到比较好的标注工具,只能靠人去标,不过文档级的关系比较少,对于born-digital document, 可能只需要考虑TOC关系和Hierarchical List的关系就够了,这些标注用人标也不会很费时间。

zzzcccxx commented 4 months ago

目前有一些自动化文档版面分析的标注方法,但是需要有latex source code,例如https://github.com/InsightsNet/texannotate 这些自动化的标注方法基本只能标注到page-level structure analysis,例如段落框的标注,以及阅读顺序的标注。对于document-level structure analysis,目前我没有看到比较好的标注工具,只能靠人去标,不过文档级的关系比较少,对于born-digital document, 可能只需要考虑TOC关系和Hierarchical List的关系就够了,这些标注用人标也不会很费时间。

好嘞了解,非常感谢您的回复

zzzcccxx commented 4 months ago

您好,感谢您对我们工作的关注。我们在GitHub中主要将构建的数据集和测评方式给公开,期望学术界能够更加关注文档解析中的多个重要任务。论文中实现的端到端系统已经被实现到微软公司的文档智能的产品方案中。由于微软公司的政策原因,我们没法开源,但是您可以通过订阅微软Azure云服务来使用我们的产品:Document Intelligence Studio - Microsoft Azure。如果您想复现我们的工作,可以按照文档中描述的细节进行复现,或者参考我们的最新工作[2405.11757] DLAFormer: An End-to-End Transformer For Document Layout Analysis (arxiv.org)

抱歉打扰了,请问DLAFormer相关的代码会公开吗?

JarvisUSTC commented 4 months ago

短时间内不会开源,这个工作还在内部评估是否作为产品方案。不过这个方法其实实现起来更直接,利用一个开源的deformable detr codebase,将原始的object query扩展成多类型query,也就是将document image里的textline也当成query输入decoder,在每一层加上关系预测的head,去预测哪些query之间存在定义的关系。

zzzcccxx commented 4 months ago

短时间内不会开源,这个工作还在内部评估是否作为产品方案。不过这个方法其实实现起来更直接,利用一个开源的deformable detr codebase,将原始的object query扩展成多类型query,也就是将document image里的textline也当成query输入decoder,在每一层加上关系预测的head,去预测哪些query之间存在定义的关系。

okok非常感谢,我去学习下。