Dedoc is a library (service) for automate documents parsing and bringing to a uniform format. It automatically extracts content, logical structure, tables, and meta information from textual electronic documents. (Parse document; Document content extraction; Logical structure extraction; PDF parser; Scanned document parser; DOCX parser; HTML parser
запустил dedoc в docker на gpu, для этого исправил баг в classifier (он подгружал модель, созданную во время теста на CPU) и установил ванильный торч (доверенный собран под CPU)
https://jira.intra.ispras.ru/browse/TLDR-516