geimist / synOCR

synOCR turns your Synology DiskStation into a paperless office
https://geimist/synOCR
GNU General Public License v3.0
41 stars 4 forks source link

Dokument automatisch aufteilen (split) #34

Open djonasdev opened 11 months ago

djonasdev commented 11 months ago

Gibt es derzeit eine Möglichkeit ein PDF automatisch zu zerteilen ohne ein "Split Sheet" beim Einscannen zu verwenden?

Konkret möchte ich sämtliche einseitigen Dokumente auf einmal einscannen. Diese sollen im Anschluss als separate PDFs geteilt werden.

geimist commented 11 months ago

Ja, dafür musst du in deinem Profil ein Kennwort definieren. Standard ist "SYNOCR-SEPARATOR-SHEET" bereits definiert. Eine Beispieldatei kannst du HIER laden und ausdrucken. Das kann man sich natürlich auch selbst erstellen.

djonasdev commented 11 months ago

Danke für die schnelle Rückmeldung.

Genau das wollte ich eben nicht machen. Angenommen ich möchte ein Stapel mit 1000 einseitigen Rechnungen von 1000 unterschiedlichen Händlern einlesen, so müsste ich zwischen jede Seite ein Trennblatt legen. Wenn ich, die ich Rechnungen in die Hand nehme, weiß ich ja selbst, dass es sich hierbei um "einseitige" Dokumente handelt. Mit einem "Teile das PDF in einzelne Seiten" Profil, könnte ich diesen Fall recht einfach behandeln.

Es gibt bereits die Möglichkeit ein postscript (https://github.com/geimist/synOCR/wiki/03_YAML-(de)#nachstehend-eine-beschreibung-der-schl%C3%BCsselw%C3%B6rter) auszuführen. Was hältst du davon, wenn man bei einem Profil auch ein pre-processing-script oder pre-processing-command ausführen könnte (https://superuser.com/questions/345086/split-pdf-document-from-command-line-in-linux). Die so geteilten Dokumente würden dann alle separat eingelesen und benannt werden.

thegodfatherrelish commented 11 months ago

Mal eine andere Herangehensweise, hast du schon mal geschaut, ob dein Scanner diese Funktion unterstützt? Bei vielen kann man einstellen, dass von einem Dokument nur eine Seite erstellt wird, kenne ich vom Fujitsu iX1500 als auch vom Brother ADS-1700W

djonasdev commented 11 months ago

Mal eine andere Herangehensweise, hast du schon mal geschaut, ob dein Scanner diese Funktion unterstützt? Bei vielen kann man einstellen, dass von einem Dokument nur eine Seite erstellt wird, kenne ich vom Fujitsu iX1500 als auch vom Brother ADS-1700W

Das hatte ich ebenfalls schon versucht 😉

Bei meinem ADS-2600We kann man das nicht einstellen. 2-seitiger Scan de-/aktiviert lediglich die Duplex Funktion. Ein Stapel mit 10 Blättern wird eine 10 oder 20 seitige PDF.

grafik

geimist commented 11 months ago

Was hältst du davon, wenn man bei einem Profil auch ein pre-processing-script oder pre-processing-command ausführen könnte

Die Herangehensweise wäre eine andere, weil ein Postscript per Regel in der YAML-Regeldatei definiert wird. Das müsste man dann also bereit direkt im Profil definieren, weil es ja immer greifen müsste. Der Vorschlag von @thegodfatherrelish wäre auch meiner gewesen. Alternativ vielleicht kleines Pythonhilfsskript.

Bei meinem ADS-2600We kann man das nicht einstellen

Ich bin mir ziemlich sicher, dass es diese Möglichkeit gibt, kann aber gerade nicht nachsehen.

thegodfatherrelish commented 11 months ago

Ich bin mir ziemlich sicher, dass es diese Möglichkeit gibt, kann aber gerade nicht nachsehen.

Ich kann leider gerade auch nicht nachsehen, meine aber aus der Erinnerung, dass ich da noch eine oder zwei Einstellungsmöglichkeiten mehr habe beim 1700W.

Edit: Bei mir gibt es noch die Auswahl Dateityp mit

und die erste Auswahl würde aus jedem Dokument eine einzelne PDF machen, scheint dem Scanner hier aber leider zu fehlen.

djonasdev commented 11 months ago

Was hältst du davon, wenn man bei einem Profil auch ein pre-processing-script oder pre-processing-command ausführen könnte

Die Herangehensweise wäre eine andere, weil ein Postscript per Regel in der YAML-Regeldatei definiert wird. Das müsste man dann also bereit direkt im Profil definieren, weil es ja immer greifen müsste. Der Vorschlag von @thegodfatherrelish wäre auch meiner gewesen. Alternativ vielleicht kleines Pythonhilfsskript.

Genau so hatte ich das auch gemeint. Vielleicht etwas missverständlich formuliert.


Bei beiden Drucker kann ich das nicht auswählen.. 👎

grafik

grafik


Ok, dein Webinterface sieht deutlich erweitert aus.. https://www.synology-forum.de/threads/brother-ads-1700w-mit-paperless-einstellungen.128072/

geimist commented 11 months ago

Ich schreibe mir es mit auf, aber bitte warte nicht zeitnah auf eine Umsetzung.

djonasdev commented 11 months ago

Falls jemand ebenfalls bereits auf der Suche nach dieser Lösung ist, habe ich hier einen passenden Docker Container erstellt: https://github.com/djonasdev/docker-inotify-pdf-tools

Die PDFs vom Scanner werden direkt in den input Ordner geschoben. Der output ist wiederum der Eingangsordner von SynOCR. Das Aufteilen der Dokumente dauert nur wenige Sekunden.