OPUS4 / application

OPUS 4 application.
Other
15 stars 21 forks source link

Doppelte Dokumente markieren und für Administratoren sichtbar machen #1164

Open j3nsch opened 12 months ago

j3nsch commented 12 months ago

Unabhängig vom Mechanismus zum Finden von doppelten Dokumenten, soll es die Möglichkeit geben Duplikate in der Datenbank zu markieren. Für Administratoren sollen dann Links in der Frontdoor zu den anderen Dokumente angezeigt werden. Es sollte eine Facette in der Suche geben, um nur doppelte Dokumente anzuzeigen. Alternativ zur Facette, könnte es einen Dubletten-Report in der Administration geben.

Die Verlinkung von Dokumenten in den Metadaten muss beim Löschen der Duplikate bereinigt werden, z.B. wenn dafür Enrichments verwendet wurden.

Für die Umsetzung werden weitere Issues für Teilaufgaben notwendig sein.

j3nsch commented 12 months ago

Ein Teil der Anforderungen decken sich mit denen zur Behandlung von allgemeinen Beziehungen zwischen Dokumenten. Man könnte die Verlinkung mit Dubletten als Referenzen abbilden, aber es macht Sinn für interne Beziehungen, zwischen OPUS 4 Dokumenten, eine Sonderbehandlung umzusetzen.

Es könnte eine neue Link-Tabelle geben für die Verlinkung zwischen Dokumente. Die Verlinkung sollte nicht nur die IDs der Dokumente, sondern auch einen Typ erhalten, z.B. DUPLICATES. Da es sich um eine separate Datenbank-Tabelle handelt, könnten Beziehungen automatisch gelöscht werden, wenn eines der beteiligten Dokumente gelöscht wird.

Es wäre möglich die Tabelle auch für gerichtete Beziehungen zu verwenden und damit z.B. auf vorherige Versionen zu verweisen.

@alw-bsz Überlegt Euch mal bitte für das nächste Meeting was Ihr davon haltet und was man damit noch anstellen könnte. Da 4.8.1 noch eine gute Testphase benötigt, wäre vielleicht Zeit für eine Umsetzung für den Release. Sicherlich nicht perfekt, aber zumindest das Grundsystem und eine paar der einfacheren Use Cases.

j3nsch commented 11 months ago

Bei der Erkennung von doppelten DOI und damit evtl. auch Dokumenten, muss der ServerState der Dokumente berücksichtigt werden. Wenn Dokumente in den Zustand "gelöscht" gesetzt werden, befinden sich die Metadaten und damit auch DOIs immer noch in der Datenbank. Sollten gelöschte Dokumente bei gleicher DOI den Import beeinflussen oder die Eingabe von Metadaten?

alw-bsz commented 11 months ago

Ein Hinweis an die BearbeiterInnen wäre hilfreich, z.B. eine Bemerkung in der Form "Es existiert bereits ein gelöschter Datensatz mit derselben DOI im Repositorium: \<OPUS-ID>". Dies könnte man z.B. als interne Bemerkung beim betreffenden Datensatz eintragen.

j3nsch commented 11 months ago

Solange die Prüfung auf Duplikate sich auf DOIs beschränkt und nicht komplexer wird, kann sie live durchgeführt werden. In der Frontdoor könnten für Administratoren Links zu anderen Dokumenten mit der gleichen Doc-ID angezeigt werden. Bemerkungen müssten bereinigt werden, wenn sich die Situation ändert, ein Dokument z.B. permanent gelöscht wird. Das ist schwierig zu automatisieren, weil sozusagen eine "System"-Bemerkung erkannt werden müsste, die automatisch geändert werden darf.

Über die Anzeige von gelöschten Dokumenten mit der gleichen DOI muss nachgedacht werden. Ist das immer sinnvoll? Wenn Dokumente zur Bereinigung permanent gelöscht werden, wäre es kein Problem, aber gibt es Situation in denen ein "gelöschtes" Dokument als bereinigt gilt und nicht mehr als "Problem" angezeigt werden sollte?