Open Leizhenpeng opened 1 year ago
问题描述:
我们在使用Python开源库进行段落识别时遇到了一些困难,因为这些库在此方面的性能表现较差。为了解决这个问题,我们考虑采用专业的PDF解析API。在这个问题中,我们将探讨几种可行的解决方案,以便更好地处理PDF文档中的段落信息。
解决方案尝试:
Adobe PDF Parse API:
腾讯云通用OCR识别:
待发布的CC的Paper解析API:
请根据项目需求和预算选择适合的解决方案,并确保查看相关文档以深入了解如何集成和使用这些API。如果您有任何疑问或需要帮助,欢迎提出。
开源PDF 解析的效果比对:https://medium.com/@thibaultmonsel_4024/extract-text-from-pdf-with-python-python-pdf-processing-part-1-be875d76234b
测试下来tika对段落的把握最好
问题描述:
我们在使用Python开源库进行段落识别时遇到了一些困难,因为这些库在此方面的性能表现较差。为了解决这个问题,我们考虑采用专业的PDF解析API。在这个问题中,我们将探讨几种可行的解决方案,以便更好地处理PDF文档中的段落信息。
解决方案尝试:
Adobe PDF Parse API:
腾讯云通用OCR识别:
待发布的CC的Paper解析API:
请根据项目需求和预算选择适合的解决方案,并确保查看相关文档以深入了解如何集成和使用这些API。如果您有任何疑问或需要帮助,欢迎提出。