TEXT_DEHYPHENATE not working properly

joaquimcampos commented 2 years ago

Bug report

Running text extraction with TEXT_DEHYPHENATE does not produce the expected behaviour for the following pdf: issue_one_page.pdf. (But it does work correctly on other pages...)

To reproduce, run the following code on the pdf issue_one_page.pdf.

import fitz
import click
from fitz.fitz import (
    TEXTFLAGS_TEXT,
    TEXT_DEHYPHENATE
)

def main(pdf_file):

    doc = fitz.open(pdf_file)
    page = doc[0]

    text = page.get_text(flags=(TEXTFLAGS_TEXT | TEXT_DEHYPHENATE))
    print(text)

@click.command
@click.argument('pdf-file', type=click.Path(exists=True))
def cli(pdf_file):
    main(pdf_file)

if __name__ == '__main__':
    cli()

This gives

$ python3 issue.py issue_one_page.pdf
42
Ένα τίποτα μπορεί ν’ αλλάξει τα πάντα
Όταν επιτέλους περάσετε την Καμπή της Λανθάνουσας Δυ-
νατότητας, οι περισσότεροι θα θεωρήσουν ότι τα καταφέρατε εν 
μία νυκτί! Ο κόσμος που μας περιβάλλει, βλέπει μόνο την κο-
ρύφωση της δράσης μας και όχι όσα προηγήθηκαν. Εσείς όμως, 
γνωρίζετε ότι η επιτυχία σας έγινε εφικτή χάρη στην προσπάθεια 
που καταβάλατε για πολύ καιρό, όταν πιστεύατε ότι δεν σημειώ-
νατε πρόοδο. 
Είναι το ανθρώπινο ισοδύναμο της γεωλογικής πίεσης. Δύο 
τεκτονικές πλάκες μπορεί να συγκλίνουν μεταξύ τους για εκατομ-
μύρια χρόνια και η πίεση σταδιακά να συσσωρεύεται. Κι έπειτα 
κάποια μέρα, τρίβονται μεταξύ τους και πάλι με τον ίδιο τρόπο 
που το έκαναν όλα αυτά τα χρόνια, αλλά αυτή τη φορά η πίεση 
είναι μεγάλη. Γίνεται σεισμός. H αλλαγή μπορεί να συντελείται 
χρόνια, μέχρι να φτάσει στο σημείο της ορατής της εκτόνωσης.
Η επιδεξιότητα απαιτεί υπομονή. Οι Σαν Αντόνιο Σπερς (23), 
μια από τις πιο επιτυχημένες ομάδες στην ιστορία του NBA, 
έχουν μια φράση του κοινωνικού μεταρρυθμιστή Τζέικομπ Ρίις 
στα αποδυτήριά τους: «Όταν απελπίζομαι, κάθομαι και κοιτάζω 
κάποιον λιθοξόο να σφυροκοπάει την πέτρα του. Τη σφυροκοπά-
ει ίσως και εκατό φορές, χωρίς να σχηματίζεται ούτε μια ρωγμή 
στην επιφάνειά της. Κι όμως στο εκατοστό πρώτο χτύπημα η πέ-
τρα θα κοπεί στα δύο και ξέρω ότι αυτό δεν οφείλεται στο τελευ-
ταίο χτύπημα, αλλά σε όλα όσα είχαν προηγηθεί».
ΑΠΟΤΕΛΕΣΜΑΤΑ

joaquimcampos commented 2 years ago

I believe the issue is that the text extraction is identifying different lines as belonging to different blocks, and TEXT_DEHYPHENATE only joins lines and spans within the same block.