jingfelix / EasySearch

Apache License 2.0
1 stars 1 forks source link

改善PDF段落识别:选择专业解析API的探讨 #12

Open Leizhenpeng opened 11 months ago

Leizhenpeng commented 11 months ago

问题描述:

我们在使用Python开源库进行段落识别时遇到了一些困难,因为这些库在此方面的性能表现较差。为了解决这个问题,我们考虑采用专业的PDF解析API。在这个问题中,我们将探讨几种可行的解决方案,以便更好地处理PDF文档中的段落信息。

解决方案尝试:

  1. Adobe PDF Parse API:

    • API链接:Adobe PDF Parse APIexample
    • 描述:Adobe的文档服务提供了一种强大的PDF解析API,可以帮助我们提高段落识别的准确性和性能。请查看其定价信息以了解可用计划和定价选项。
  2. 腾讯云通用OCR识别:

    • API链接:腾讯云通用OCR识别
    • 描述:腾讯云的OCR识别服务支持PDF文档,包括段落信息的提取。这可以是一个经济高效的解决方案,特别是对于大规模的PDF文档处理。查看文档以获取更多细节。
  3. 待发布的CC的Paper解析API:

    • 描述:我们还在考虑使用即将发布的CC的Paper解析API。该API可能提供适合我们需求的功能,但目前尚未发布。我们将继续跟踪其进展并在以后更新相关信息。

请根据项目需求和预算选择适合的解决方案,并确保查看相关文档以深入了解如何集成和使用这些API。如果您有任何疑问或需要帮助,欢迎提出。

Leizhenpeng commented 11 months ago

开源PDF 解析的效果比对:https://medium.com/@thibaultmonsel_4024/extract-text-from-pdf-with-python-python-pdf-processing-part-1-be875d76234b

测试下来tika对段落的把握最好