geimist / synOCR

synOCR turns your Synology DiskStation into a paperless office
https://geimist/synOCR
GNU General Public License v3.0
42 stars 5 forks source link

keine Verarbeitung von Scans mehr nach Update von 1.4.1 auf 1.4.5 #45

Closed exuded closed 8 months ago

exuded commented 8 months ago

nach dem Update auf 1.4.5 werden Dokumente nicht mehr verarbeitet. Das Log schreibt nur:

` ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ---------------------------------- ● ● | ==> RUN THE FUNCTIONS <== | ● ● ---------------------------------- ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●


| check the python3 installation and the necessary modules: |

            prepare_python: OK

Target temp directory: /tmp/tmp.tvykkDvesg

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● STEP 1 - RUN OCR / SPLIT FILES, IF NEEDED: ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● CURRENT FILE: ➜ Brother_1700W_12022024_000272.pdf temp. target file: /tmp/tmp.tvykkDvesg/step1_tmp_1707739154/Brother_1700W_12022024_000272.pdf


| processing PDF @ OCRmyPDF: |

`

und dann folgt seit 40 Minuten nichts mehr. Bereits versucht: Synology Restart, Docker Restart, synOCR Restart, manuelles entfernen der Dokumente aus dem Quellordner und wieder hinzufügen

geimist commented 8 months ago

Hat sich deine Anfrage erledigt? Was war das Problem?

exuded commented 8 months ago

Hallo, ich habe einfach festgestellt, dass die Verarbeitung sehr lange dauert. Sie funktioniert. Aber pro Dokument Dauer es ca 20-30 Minuten. Mag wohl an meiner älteren DS918+ liegen, auch wenn CPU und RAM dauerhaft unter 30% Auslastung sind…

Am 12.02.2024 um 16:54 schrieb Stephan Geisler @.***>:

Hat sich deine Anfrage erledigt?

— Reply to this email directly, view it on GitHub https://github.com/geimist/synOCR/issues/45#issuecomment-1938966071, or unsubscribe https://github.com/notifications/unsubscribe-auth/AMRQICX7A44Y63GS3TMLGLTYTI3MTAVCNFSM6AAAAABDETI4CWVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMYTSMZYHE3DMMBXGE. You are receiving this because you modified the open/close state.

geimist commented 8 months ago

Eigentlich sollte es bei weitem nicht so lange dauern. Aber es kommt natürlich auch auf die Größe der Dokumente an (viele hunderte Seiten). Auch zusätzliche OCR-Parameter könnten die Ausführungszeit verlängern, aber das wäre schon extrem bei dir. Man könnte auch mal ein anderes Image probieren, aber prinzipiell arbeiten die da alle grundsätzlich gleich.

Minimaler RAM könnte bei vielen Seiten die Geschwindigkeit auch negativ beeinflussen. In dem Fall könnte man mit einem OCR-Paremter die Threadanzahl herabsetzen (z.B. auf 1 damit nur eine Seite gleichzeitig abgearbeitet wird).

exuded commented 8 months ago

Es sind maximal 4-5 Seiten pro Mehrseitigem Dokument. Die meisten Dokumente sind einseitig. Auch bei einseitigen Dokumenten dauert die Verarbeitung mehr als 15 Minuten. Diese Dokumente werden mit 300 DPI je Dokument gescannt. Was kann ich für ein Debugging liefern? Die Log Dateien schreiben bisher keine Fehler. Was mit dem Absatz „Minimaler RAM […]“ gemeint ist verstehe ich nicht. Meine Synology hat 8 GB RAM und dieser wird bei weitem nicht ausgelastet von synOCR.

Am 12.02.2024 um 17:03 schrieb Stephan Geisler @.***>:

Eigentlich sollte es bei weitem nicht so lange dauern. Aber es kommt natürlich auch auf die Größe der Dokumente an (viele hunderte Seiten). Auch zusätzliche OCR-Parameter könnten die Ausführungszeit verlängern, aber das wäre schon extrem bei dir. Man könnte auch mal ein anderes Image probieren, aber prinzipiell arbeiten die da alle grundsätzlich gleich.

Minimaler RAM könnte bei vielen Seiten die Geschwindigkeit auch negativ beeinflussen. In dem Fall könnte man mit einem OCR-Paremter die Threadanzahl herabsetzen (z.B. auf 1 damit nur eine Seite gleichzeitig abgearbeitet wird).

— Reply to this email directly, view it on GitHub https://github.com/geimist/synOCR/issues/45#issuecomment-1938992002, or unsubscribe https://github.com/notifications/unsubscribe-auth/AMRQICVYCFZR325XJS6DW6LYTI4NVAVCNFSM6AAAAABDETI4CWVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMYTSMZYHE4TEMBQGI. You are receiving this because you modified the open/close state.

geimist commented 8 months ago

Es sind maximal 4-5 Seiten pro Mehrseitigem Dokument. Die meisten Dokumente sind einseitig. Auch bei einseitigen Dokumenten dauert die Verarbeitung mehr als 15 Minuten.

Dann ist der Verarbeitungszeit erfahrungsgemäß zu lang. Aber du musst auch wissen, dass zunächst alle PDFs geocrd werden und anschließend die Tagerkennung durchlaufen wird. Erst nach dem zweiten Schritt erscheinen die einzelnen PDFs im Zielordner. Bei vielen PDFs dauert es also, bis erste Ergebnisse im Ausgabeverzeichnis zu sehen sind.

Du kannst mir gern privat ein Log von einer einzelnen PDFschicken (Upload).

Was mit dem Absatz „Minimaler RAM […]“ gemeint ist verstehe ich nicht. Meine Synology hat 8 GB RAM …

Da ist das nicht die Ursache.