kartevonmorgen / FairSync

A general Syncronisation Tool for kvm and other maps
1 stars 0 forks source link

GOAL2: intelligent duplicate detection module #7

Open wellemut opened 11 months ago

wellemut commented 11 months ago

Userstories

Check out Goal 1 for that https://github.com/kartevonmorgen/FairSync/issues/6

Usecase A: HLNUG/ Jetztklimachen; Ich habe eine Liste mit 500 Einträgen, die ich auf einer Karte sehen will, mit möglichst vielen Nutzern und großer Reichweite

  1. CSV-Datei ins richtige Format bringen, eine Preview der Orte und Einträge prüfen und importieren
  2. Prüfen, welche Daten davon bereits auf der Karte sind und möglichst sinnvoll (und schnell) zu einem eindeutigen Ergebnis kommen.

Usecase B: Netzwerker: Repaircafees gibt es viele auf der OSM, beim Netzwerk der Reparaturinitiativen und auf der kvm #13 . Mich nervt, dass es keine vollständige Karte gibt denn ich will für meine Nutzer meiner Webseite eine vollständige und akutelle Karte aller Reparaturcafees darstellen.

  1. Ich habe alle APIs mit entsprechenden Such-Queries für Repaircafees von OSM und Anstiftung, möchte sie ins richtige Format bringen, eine Preview der Orte und Einträge prüfen und alle importieren
  2. Ich will sehen, welche Einträge dupletten erzeugen, diese Moderieren und auch bei den eindeutigen einmal durchscrollen, ob sie wirklich unique sind
  3. Wenn sich ein Eintrag auf einer Partnerkarte aktualisiert, soll er sich auch auf meiner Karte aktualisieren. Auch wenn der Eintrag woanders gelöscht wird, soll er sich bei mir löschen
  4. Wenn andere Plattform ihre Datenbanken auch vervollständigen wollen, sollen sie das ohne viel technischen Aufwand machen können, ohne dass sie nochmal prüfen müssen, was dupletten sind

Usecase C: Regionalpilot/ Themenpilot: Auf der kvm fällt mir auf, dass es viele Einträge doppelt gibt, das nervt. Ich will für meine Region/thema die Daten bereinigen

  1. Alle neuen [wurden verändert/kamen hinzu seit meiner letzten Prüfung] Daten (der ofDB) in meinem Ausschnit/Thema laden, die mögliche Dupletten sind
  2. Die Daten vergleichen, mergen oder als unique kennzeichnen oder komplett löschen

Solution Idea

In parallel, we are developing an intelligent duplicate detection module, because the decisive challenge in this database network is the digitally automated filtering of duplicate content, so that users can find each initiative and each event only once on all participating platforms, even if it has been entered or edited independently on several portals.

https://wechange.de/project/fairsync/note/foerderprojekt-fairsync-schnittstelle-zwis/

Current Development on Duplicate checker: https://github.com/kartevonmorgen/openfairdb/issues/301 and Similarity Detection: https://github.com/kartevonmorgen/FairSync/issues/20

wellemut commented 1 month ago

Latest Strategy in Duplicate checking in this issue: https://github.com/kartevonmorgen/FairSync/issues/20