ispras / dedoc

Dedoc is a library (service) for automate documents parsing and bringing to a uniform format. It automatically extracts content, logical structure, tables, and meta information from textual electronic documents. (Parse document; Document content extraction; Logical structure extraction; PDF parser; Scanned document parser; DOCX parser; HTML parser
Apache License 2.0
109 stars 15 forks source link

TLDR-700 added langchain document loader #457

Closed alexander1999-hub closed 2 weeks ago

alexander1999-hub commented 2 weeks ago

Добавил в репозиторий код DocumentLoader'a, который потом планируется отправить в LangChain. Постарался визуальное оформление оставить аналогичным коду, который уже есть в лэнгчейне. Например, у PDFMiner'a