ispras / dedoc

Dedoc is a library (service) for automate documents parsing and bringing to a uniform format. It automatically extracts content, logical structure, tables, and meta information from textual electronic documents. (Parse document; Document content extraction; Logical structure extraction; PDF parser; Scanned document parser; DOCX parser; HTML parser
Apache License 2.0
152 stars 18 forks source link

Ошибка в определении bold #479

Open ValiullinAlbert opened 2 months ago

ValiullinAlbert commented 2 months ago

При прочтении следующего файла 2 — копия.docx

document1 = reader.read("2 — копия.docx", parameters={"with_attachments": "false", "need_header_footer_analysis": "True"})
print(document1.lines)

При прочтении второй и третьей строки, они отображается как bold:

print(document1.lines[2].annotations[-1].to_api_schema())
print(document1.lines[3].annotations[-1].to_api_schema())

Хотя они не является жирными в документе

NastyBoget commented 2 months ago

Баг воспроизвелся, постараемся поправить