geimist / synOCR

synOCR turns your Synology DiskStation into a paperless office
https://geimist/synOCR
GNU General Public License v3.0
41 stars 4 forks source link

Metadata-Datei im Ausgabe-Ordner #46

Closed socram70 closed 6 months ago

socram70 commented 6 months ago

Mit dem Erstellen der OCR-Version der PDF wird außerdem auch eine .metadata-Datei angelegt, die einige Metadaten enthält. Das finde ich eher störend und wird von mir nicht benötigt. Ich habe keine Option gefunden, um das Verhalten zu deaktivieren. Gibt es hierfür eine Lösung?

Der Inhalt der Datei sieht in etwa so aus:

Wed Feb 28 15:11:32 CET 2024

file.ocrstatus=10 file.principal= file.name=2024-02-20_.pdf file.size=4316852 file.source=zentraler Scanordner

geimist commented 6 months ago

Ganz sicher, dass das synOCR die Ursache ist? Das ist mir völlig neu.

socram70 commented 6 months ago

Das ging schnell, danke! Ich habe mich auch sehr gewundert, weil ich hierzu nichts in der Dokumentation oder sonstwo gefunden habe. Es ist genauso gut möglich, dass ocrmypdf die Dateien erstellt, es ist aber schon merkwürdig, dass das offenbar nur bei mir der Fall ist.

Zuvor fiel mir auf, dass synOCR gar nicht mehr lief (weil ich eine alte Version hatte, die ich noch über den Paketmanager installiert hatte), sodass es ich es sauber deinstalliert und über die .spk-Datei von hier installiert habe.

Zu deinen Fragen:

  1. Die Datei liegt zusammen mit den anderen Dateien im Ausgabeverzeichnis und der Zeitpunkt ist identisch mit dem Datum der zugehörigen abgearbeiteten PDF. Nein, vom Scanner kann sie nicht kommen, weil der Scanner in einen anderen Ordner scannt als den Ausgabeordner.
  2. Ja

Interessant ist auch, dass die Datei neu erstellt wird, sobald man sie löscht. Mir würde keine andere Software einfallen, die auf den Ordner Zugriff hat und dies verursachen könnte.

Die Konfiguration sieht wie folgt aus:

grafik

geimist commented 6 months ago

Zuvor fiel mir auf, dass synOCR gar nicht mehr lief (weil ich eine alte Version hatte, die ich noch über den Paketmanager installiert hatte), sodass es ich es sauber deinstalliert und über die .spk-Datei von hier installiert habe.

Du hättest vorher nicht deinstallieren müssen 😉

Wer ist der Eigentümer dieser Datei? synOCR arbeitet immer in temporären Ordnern und dann gibt es Routinen, die die fertige Ausgabedatei handeln. Würde diese Datei von von OCRmyPDF stammen, dann müsste synOCR diese 'bewusst' in das Zielverzeichnis legen. Andernfalls würde alles im temporären Ordner nach dem Abschluss verworfen und mit dem temporären Ordner gelöscht.

Da sie auch neu erstellt wird, wenn sie manuell gelöscht wird, lässt mich auch auf einen externen Mechanismus schließen.

Wo kommt in deiner Umgebung so ein Begriff wie "zentraler Scanordner" (Wert file.source) vor?

socram70 commented 6 months ago

Oh man, das ist mir nun etwas peinlich, aber tatsächlich stammt die Datei von einer anderen Software, an die ich gar nicht mehr gedacht hatte.

Gut zu wissen mit der Deinstallation und vielen Dank für deine nette Rückmeldung. Entschuldige die Zeitverschwendung und danke für deinen Einsatz!

geimist commented 6 months ago

Kein Problem. Hauptsache, wir konnten das Problem lösen. Kannst du noch sagen, um welche Software es sich handelt? Ich hatte jetzt im Acronis Forum etwas dazu entdeckt.

socram70 commented 6 months ago

Klar, ich hatte das weggelassen, weil das sicher niemand außer mir benutzt. Die Dateien werden von einer Beta-Version von j-lawyer angelegt, die Software für Rechtsanwälte, die ich benutze und die ebenfalls den Scan-Ordner auf neue Dateien prüft.