stefanw / bibbot

BibBot is a browser extension that removes the paywall on German online news sites using your library account's access to press databases.
https://stefanw.github.io/bibbot/
GNU General Public License v3.0
498 stars 78 forks source link

Spiegel+ Quelle/Ziel-Problem #79

Open Wikinaut opened 2 years ago

Wikinaut commented 2 years ago

Quelle: https://www.spiegel.de/auto/oeffentliche-verkehrsmittel-warum-die-avantgarde-bus-und-bahn-faehrt-a-039029c9-c0d5-4025-9f36-ba84fc92d5c8

Wird nicht gefunden (wie viele der Spiegel+ Artikel).

Meine ad-hoc Analyse: Voebbot limitiert zu stark: grafik

Soll/Ziel: (manuelle Suche ohne Limitierung): https://bib-voebb.genios.de/document/SPPL__14fc1b44924c9633452d397f7b8c462f0bbffdd2

stefanw commented 2 years ago

Bei Spiegel.de habe ich noch keinen guten Trick gefunden. Überschriften helfen gar nicht, die sind dort alle auf's Web 'optimiert'.

errotu commented 2 years ago

Spiegel scheint wirklich sehr tricky zu sein. Bei mir werden aktuell auch oft falsche Ergebnisse ausgegeben. Ich habe ein bisschen rumprobiert und den Eindruck, mit Datum und Autor:in könnte es (jedenfalls für die Print-Ausgaben) recht gut funktionieren:

  1. Check if print (vielleicht über eine Überprüfung, ob "title="[Zur Ausgabe]" im HTML-Quelltext vorkommt?)
  2. Suche nach:
    • Datum: SPON-Datum + 1 Tag (also anstelle vom 04.03.2022 bei wiso 05.03.2022)
    • Suchfeld: -- bei einem Autor: Vorname Nachname -- bei mehreren Autoren: Vorname1 Nachname1Vorname2 Nachname2Vorname3 (bei wiso werden die Namen nicht richtig getrennt, sondern der Nachname des einen immer mit dem Vornamen des nächsten verbunden; das macht per Artikeln mehrerer Personen in Verbindung mit dem Datum einen ganz passabel Unique Identifier)
  3. Bei mehreren Treffern: Wähle den Artikel mit den meisten Wörtern aus, der nicht als "Impressum" betitelt ist

Das funktioniert wahrscheinlich ähnlich auch bei anderen SPON-Artikel (die nicht aus der Print-Ausgabe stammen), nur beim Datum könnte ich mir vorstellen, dass man noch etwas flexibler sein muss.

eknoes commented 2 years ago

Mit #103 wird dieser Artikel bspw. immernoch nicht gefunden: https://www.spiegel.de/ausland/so-schwaecht-wladimir-putins-krieg-den-kampf-gegen-das-klima-a-19305d7c-c666-4e2f-9a0c-50ccda7181dd

Hier unterscheiden sich der Titel, aber auch der Teaser wurde minimal umformuliert und wird deshalb nicht gefunden.