RajSolai / TextSnatcher

How to Copy Text from Images ? Answer is TextSnatcher !. Perform OCR operations in seconds on Linux Desktop.
https://textsnatcher.rf.gd/
GNU General Public License v3.0
1.26k stars 45 forks source link

[Feature request] option for "-" and "line breaks" #34

Open Golddouble opened 1 year ago

Golddouble commented 1 year ago

TextSnatcher is a cool piece of software. Thank you for having created it.

This is a section from a PDF without text layer: k20220831-090821

This is the result from TextSnatcher:

Maße die Mitarbeiter. (Anm. d. U: Wortspiel do-ocracy beschreibt eine Re-
gierungsform die denjenigen die Macht haben gibt, die etwas erschaffen)
Jeder mit genügent Fähigkeiten, Zeit und Motivation kann effektiven Ein-
fluß auf die Führung eines Projekts nehmen. Dies bezeugt eine Gesamtheit
von etwa 1000 offiziellen Mitgliedern des Debian Projekts und mehreren
tausend Unterstützern in der ganzen Welt. Da wundert es nicht, dass Debi-
an oft zugeschrieben wird das größte gemeinschaftsbasierte freie Software-
projekt zu sein.

This is nice. But now the feature request comes: I would like to have an option to get also this:

Maße die Mitarbeiter. (Anm. d. U: Wortspiel do-ocracy beschreibt eine Regierungsform die denjenigen die Macht haben gibt, die etwas erschaffen) Jeder mit genügent Fähigkeiten, Zeit und Motivation kann effektiven Einfluß auf die Führung eines Projekts nehmen. Dies bezeugt eine Gesamtheit von etwa 1000 offiziellen Mitgliedern des Debian Projekts und mehreren tausend Unterstützern in der ganzen Welt. Da wundert es nicht, dass Debian oft zugeschrieben wird das größte gemeinschaftsbasierte freie Softwareprojekt zu sein.

Wht's the difference?

  1. The line breaks are not taken over. (Whether the original line breaks are desired depends on what we need the text for afterwards).

  2. Separated words are written together. For example, "Debi- an" becomes Debian.

Would be nice to have an option to choose between these two types of output.

What do you think? Would appreciate some feedback.

RajSolai commented 1 year ago

Sure I will try to resolve the line break and work combining problem. Thanks for trying out TextSnatcher and sharing the issue :)

Golddouble commented 1 year ago

This is good news. Thank you.