OPUS4 / application

OPUS 4 application.
Other
15 stars 21 forks source link

Anforderungen für automatische Deckblätter ausarbeiten #450

Open j3nsch opened 2 years ago

j3nsch commented 2 years ago

Es sollen automatische Deckblätter für PDF Dateien generiert werden. Wie sehen die Anforderungen im Detail aus? Soll das Deckblatt für jeden Download neu generiert werden oder kann das Deckblatt einmal erzeugt werden? Was ist sonst noch wichtig?

j3nsch commented 2 years ago

Ich weiß noch nicht wie man hier auf GitHub Anforderungen am Besten ausarbeitet. Wir können einfach hier im Issue Informationen sammeln und dann später eine Wiki-Seite daraus machen. Oder man könnte das Discussions-Feature nutzen. Damit habe ich aber noch keine Erfahrung. Ich denke wir werden im Laufe der Zeit lernen und im Augenblick geht es mehr darum überhaupt anzufangen.

j3nsch commented 2 years ago

Wann muss ein neues Deckblatt generiert werden? Diese Frage ist wichtig. Wenn das Deckblatt für alle Downloads gleich ist, muss es nur bei Änderungen der Metadaten aktualisiert werden. Das heißt aber, dass wir das Deckblatt auch wieder entfernen können müssen, um ein altes Deckblatt durch ein neues zu ersetzen. Alternativ könnte man die originale PDF-Datei unverändert lassen und die Datei mit Deckblatt in einem Cache speichern.

In OPUS 4 wird für Dateien ein Hash gespeichert. Wenn die Original-Datei verändert wird, müsste man sich überlegen, ob der Hash jedes Mal angepasst werden soll, welche Bedeutung er überhaupt noch hat. Eigentlich dient er dazu manipulierte Dateien zu erkennen. Was wenn wir die Dateien selber manipulieren?

Soll das Deckblatt für jeden Download generiert werden, vermeidet das einige der Probleme oben. Dafür muss geklärt werden wie der Download effizient gehandhabt werden kann. Momentan wird die Übertragung der Datei an den Server, an Apache 2, übergeben. Wenn wir jetzt aber nicht mehr die Original-Datei herunterladen, muss der Server auf die dynamisch erzeugte bzw. im Cache gespeicherte Datei umgeleitet werden.

Bevor hier weiter in die Tiefe gegangen wird muss klar sein wann ein Deckblatt generiert werden soll.

j3nsch commented 2 years ago

Spielt es an irgend einer Stelle eine Rolle, dass dann jeder Download unter Umständen unterschiedlich ist? Ich gehe davon aus, dass das kein Problem ist, aber das sollte dokumentiert werden.

Die DNB über XMetaDissPlus bekommt auch das Deckblatt? Oder anders ausgedrückt auch für die OAI-Schnittstelle sollten Deckblätter generiert werden?

j3nsch commented 2 years ago

Wir hatte intern schon ein Ticket zur Frage wann das Deckblatt hinzugefügt werden soll. Dort war die Annahme, dass das Deckblatt für jeden Download generiert wird und somit das Original-PDF unverändert bleibt. Ob das PDF mit Deckblatt gecached werden kann hängt davon, ob auf dem Deckblatt z.B. ein Zeitstempel für den Download stehen soll.

https://tickets.zib.de/jira/browse/OPUSVIER-4015

In einem weiteren Ticket ging es darum, ob das Deckblatt dynamisch generiert werden muss? Ich denke die Antwort ist ja. Ein statisches Deckblatt, das für alle Downloads identisch ist, wäre dann auch immer noch möglich.

https://tickets.zib.de/jira/browse/OPUSVIER-4013

j3nsch commented 2 years ago

Wie geht man mit Fehlern um? Wenn z.B. das PDF nicht modifizierbar ist? Kann dieser Fall auftreten. Das interen Ticket enthält nur die Fragestellung, aber sonst keine weiteren Informationen.

https://tickets.zib.de/jira/browse/OPUSVIER-4018

hsh-bib commented 2 years ago

Es sollen automatische Deckblätter für PDF Dateien generiert werden. Wie sehen die Anforderungen im Detail aus? Soll das Deckblatt für jeden Download neu generiert werden oder kann das Deckblatt einmal erzeugt werden? Was ist sonst noch wichtig?

Idealerweise sollte das Deckblatt bei Download des Dokuments dynamisch erstellt werden. Wünschenswerte Bestandteile: Logo des IR, Dokumenttyp, Autor, Titel, DOI, URN, Standard-Nutzungsbedingungen, Lizenz, Zitiervorschlag. Beispiel siehe ZBW https://www.econstor.eu

alw-bsz commented 2 years ago

DSpace weist ausdrücklich darauf hin, dass das Voranstellen von Deckblättern die Indexierung durch Suchmaschinen verschlechtern kann: https://wiki.lyrasis.org/display/DSDOC7x/Search+Engine+Optimization#SearchEngineOptimization-TurnOFFanygenerationofPDFcoverpages. Ich gehe davon aus, dass das nicht DSpace-spezifisch ist, sondern sich auch bei OPUS entsprechend auswirken wird. Wenn sich das bestätigt, sollte ein Hinweis in das OPUS-Handbuch aufgenommen werden.

j3nsch commented 2 years ago

Danke für den Hinweis. Es gibt jetzt Issue #489 für die Dokumentation der Deckblätter-Funktionalität.

extracts commented 2 years ago

Siehe auch #563 zur Demonstration der bisher umgesetzten PDF Deckblatt Funktionalität.