ispras / dedoc

Dedoc is a library (service) for automate documents parsing and bringing to a uniform format. It automatically extracts content, logical structure, tables, and meta information from textual electronic documents. (Parse document; Document content extraction; Logical structure extraction; PDF parser; Scanned document parser; DOCX parser; HTML parser
Apache License 2.0
111 stars 15 forks source link

Обучение собственных моделей #404

Closed ValiullinAlbert closed 4 months ago

ValiullinAlbert commented 4 months ago

Подскажите, пожалуйста, как можно обучить собственные модели для классификации параграфов и строк и как подготовить данные для обучения?

NastyBoget commented 4 months ago

Добрый день, в ближайшее время выложим гайд с описанием - как использовать нашу систему для разметки данных, как обучить свой классификатор и реализовать свой structure extractor

NastyBoget commented 4 months ago

Добавили туториал в новой версии https://dedoc.readthedocs.io/en/latest/tutorials/add_new_structure_type.html

ValiullinAlbert commented 4 months ago

Спасибо!