Closed iljukhaput closed 2 months ago
момент, который меня смущает: в pdf, сгенерированном из docx, параграфы могут заходить на следующую страницу, в этом случае перенесенная часть считывается как новый параграф. Плюс его тип определяется неправильно, из-за того, что считается, что есть отступ сверху. Можно сделать небольшой костыль. Например, смотреть, границы текста и заканчивается ли последнее предложение точкой. Но стоит ли? Или в сценариях, в принципе, не принято разделять параграфы на разные страницы?
перезалил - поправил момент с тем, что если на странице был текст только посередине (например, реплика на всю страницу), неправильно определялась левая граница текста, а от сюда шло и неправильное определение типов блоков
Пишет конфликт тут в реквесте (понятно - это от того, что я влил первый коммит, который тут в реквесте есть, нужно отребейзить просто). Плюс у нас в сабмодулях по несколько веток появилось, не очень понимаю нужны ли они нам, или нет, можешь как-то их объединить/удалить лишнее, или описать что и как там у нас используется?
да, я не стал вливать до ревью, чтобы если что проще было правки вносить
сейчас уже ветки qmake-build
в обоих сабмодулях можно влить в мастер и удалить, т.к. соответствующий пр ты влил (сейчас сделаю)
а в ветках pdf-text-extraction:extract-text-with-formats
и PDF-Writer:extract-text-with-formats
- основные доработки по формированию QTextDocument'а
могу их тоже сразу влить, если так удобнее
отребейзил не понял только, почему клэнг-формат не прошел
могу их тоже сразу влить, если так удобнее
Да, давай вверх положим эти два коммита как есть и ненужные ветки уберём
не понял только, почему клэнг-формат не прошел
да, что-то там отвалилось - потом разберёмся с ним)
Да, давай вверх положим эти два коммита как есть и ненужные ветки уберём
сделал
момент, который меня смущает:
Это больше не актуально?
Правильно я понял, что по-сути тут почти полная копипаста с импортера DOCX-файлов?)
Правильно я понял, что по-сути тут почти полная копипаста с импортера DOCX-файлов?)
да, всё так)
Это больше не актуально?
А вот момент с переносом параграфов ещё актуален
А вот момент с переносом параграфов ещё актуален
но это же касается парсера PDF по-сути, а не импортера, правильно? если так, то давай вынесем эту проблему в отдельную задачку, а тут пока продолжим двигаться дальше
но это же касается парсера PDF по-сути, а не импортера, правильно?
да, всё так)
если так, то давай вынесем эту проблему в отдельную задачку, а тут пока продолжим двигаться дальше
оки
основные доработки - в PDFTextExtraction