Import screenplays from pdf

iljukhaput commented 2 months ago

основные доработки - в PDFTextExtraction

iljukhaput commented 2 months ago

момент, который меня смущает: в pdf, сгенерированном из docx, параграфы могут заходить на следующую страницу, в этом случае перенесенная часть считывается как новый параграф. Плюс его тип определяется неправильно, из-за того, что считается, что есть отступ сверху. Можно сделать небольшой костыль. Например, смотреть, границы текста и заканчивается ли последнее предложение точкой. Но стоит ли? Или в сценариях, в принципе, не принято разделять параграфы на разные страницы?

iljukhaput commented 2 months ago

перезалил - поправил момент с тем, что если на странице был текст только посередине (например, реплика на всю страницу), неправильно определялась левая граница текста, а от сюда шло и неправильное определение типов блоков

dimkanovikov commented 2 months ago

Пишет конфликт тут в реквесте (понятно - это от того, что я влил первый коммит, который тут в реквесте есть, нужно отребейзить просто). Плюс у нас в сабмодулях по несколько веток появилось, не очень понимаю нужны ли они нам, или нет, можешь как-то их объединить/удалить лишнее, или описать что и как там у нас используется?

iljukhaput commented 2 months ago

да, я не стал вливать до ревью, чтобы если что проще было правки вносить сейчас уже ветки qmake-build в обоих сабмодулях можно влить в мастер и удалить, т.к. соответствующий пр ты влил (сейчас сделаю)

а в ветках pdf-text-extraction:extract-text-with-formats и PDF-Writer:extract-text-with-formats - основные доработки по формированию QTextDocument'а могу их тоже сразу влить, если так удобнее

iljukhaput commented 2 months ago

отребейзил не понял только, почему клэнг-формат не прошел

dimkanovikov commented 2 months ago

могу их тоже сразу влить, если так удобнее

Да, давай вверх положим эти два коммита как есть и ненужные ветки уберём

не понял только, почему клэнг-формат не прошел

да, что-то там отвалилось - потом разберёмся с ним)

iljukhaput commented 2 months ago

Да, давай вверх положим эти два коммита как есть и ненужные ветки уберём

сделал

dimkanovikov commented 2 months ago

момент, который меня смущает:

Это больше не актуально?

Правильно я понял, что по-сути тут почти полная копипаста с импортера DOCX-файлов?)

iljukhaput commented 2 months ago

Правильно я понял, что по-сути тут почти полная копипаста с импортера DOCX-файлов?)

да, всё так)

Это больше не актуально?

А вот момент с переносом параграфов ещё актуален

dimkanovikov commented 2 months ago

А вот момент с переносом параграфов ещё актуален

но это же касается парсера PDF по-сути, а не импортера, правильно? если так, то давай вынесем эту проблему в отдельную задачку, а тут пока продолжим двигаться дальше

iljukhaput commented 2 months ago

но это же касается парсера PDF по-сути, а не импортера, правильно?

да, всё так)

если так, то давай вынесем эту проблему в отдельную задачку, а тут пока продолжим двигаться дальше

оки

story-apps / starc

Import screenplays from pdf #263