ispras / dedoc

Dedoc is a library (service) for automate documents parsing and bringing to a uniform format. It automatically extracts content, logical structure, tables, and meta information from textual electronic documents. (Parse document; Document content extraction; Logical structure extraction; PDF parser; Scanned document parser; DOCX parser; HTML parser
Apache License 2.0
111 stars 15 forks source link

Ошибка при прочитывании файла #379

Closed ValiullinAlbert closed 6 months ago

ValiullinAlbert commented 7 months ago

Положение.docx При считывании этого файла возникает ошибка связанная с размером шрифта

from dedoc.readers import DocxReader

filepath = "Положение.docx"
reader = DocxReader(config={})
document = reader.read(filepath, parameters={"with_attachments": "false"})

Ошибка: ValueError: could not convert string to float: '8pt'

NastyBoget commented 7 months ago

Ошибка воспроизвелась, постараемся исправить в ближайшее время, спасибо!

NastyBoget commented 6 months ago

Поправили в новой версии dedoc==2.0