Open qiu-wen-jie opened 4 months ago
unstructured库提供了用于 提取和预处理 图像和文本文档(例如 PDF、HTML、Word 文档等)的开源组件。 unstructured模块化功能 和 连接器形成一个内聚系统,简化了数据提取和预处理,使其能够适应不同的平台,并有效地将非结构化数据转换为结构化输出。
https://github.com/Unstructured-IO
https://github.com/Unstructured-IO https://docs.unstructured.io/welcome
说明项目
unstructured库提供了用于 提取和预处理 图像和文本文档(例如 PDF、HTML、Word 文档等)的开源组件。 unstructured模块化功能 和 连接器形成一个内聚系统,简化了数据提取和预处理,使其能够适应不同的平台,并有效地将非结构化数据转换为结构化输出。
提供官网
https://github.com/Unstructured-IO
参考资料 URL
https://github.com/Unstructured-IO https://docs.unstructured.io/welcome