Closed ValiullinAlbert closed 6 months ago
Добрый день, постараемся разобраться, спасибо!
У документов подобного рода сложный текстовый слой, при копировании порядок текста нарушается - мы ведем исследование, как это можно исправить, но увы, универсального решения нет. Это проблема формата PDF, решить проблему с неправильным порядком текста может только OCR, например, PdfImageReader
.
Что касается жирности - проблема также не может быть решена полностью, PdfTxtlayerReader
использует для чтения pdfminer.six
, который возвращает информацию о жирности если в названии шрифта есть bold
(связанная issue). В данном документе названия шрифтов такого не содержат, поэтому сложно сказать, возможно ли в принципе основываясь на информации текстового слоя, эту информацию получить.
Увы, парсинг PDF - всегда рискованная затея, в данном случае скорее всего мы не сможем что-то исправить.
ALROSA_Sustainability Report_2022.pdf
При работе с такими файлами не выделяется жирный текст (отсутствует BoldAnnotation), также текст выделяется в странном порядке. То есть то, что располагается в файле на одной строке делится на разные строки: