Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

GOAL2: intelligent duplicate detection module #7

Open
wellemut opened this issue Dec 9, 2023 · 1 comment
Open

GOAL2: intelligent duplicate detection module #7

wellemut opened this issue Dec 9, 2023 · 1 comment

Comments

@wellemut
Copy link
Member

wellemut commented Dec 9, 2023

Userstories

Check out Goal 1 for that #6

Usecase A: HLNUG/ Jetztklimachen; Ich habe eine Liste mit 500 Einträgen, die ich auf einer Karte sehen will, mit möglichst vielen Nutzern und großer Reichweite

  1. CSV-Datei ins richtige Format bringen, eine Preview der Orte und Einträge prüfen und importieren
  2. Prüfen, welche Daten davon bereits auf der Karte sind und möglichst sinnvoll (und schnell) zu einem eindeutigen Ergebnis kommen.

Usecase B: Netzwerker: Repaircafees gibt es viele auf der OSM, beim Netzwerk der Reparaturinitiativen und auf der kvm #13 . Mich nervt, dass es keine vollständige Karte gibt denn ich will für meine Nutzer meiner Webseite eine vollständige und akutelle Karte aller Reparaturcafees darstellen.

  1. Ich habe alle APIs mit entsprechenden Such-Queries für Repaircafees von OSM und Anstiftung, möchte sie ins richtige Format bringen, eine Preview der Orte und Einträge prüfen und alle importieren
  2. Ich will sehen, welche Einträge dupletten erzeugen, diese Moderieren und auch bei den eindeutigen einmal durchscrollen, ob sie wirklich unique sind
  3. Wenn sich ein Eintrag auf einer Partnerkarte aktualisiert, soll er sich auch auf meiner Karte aktualisieren. Auch wenn der Eintrag woanders gelöscht wird, soll er sich bei mir löschen
  4. Wenn andere Plattform ihre Datenbanken auch vervollständigen wollen, sollen sie das ohne viel technischen Aufwand machen können, ohne dass sie nochmal prüfen müssen, was dupletten sind

Usecase C: Regionalpilot/ Themenpilot: Auf der kvm fällt mir auf, dass es viele Einträge doppelt gibt, das nervt. Ich will für meine Region/thema die Daten bereinigen

  1. Alle neuen [wurden verändert/kamen hinzu seit meiner letzten Prüfung] Daten (der ofDB) in meinem Ausschnit/Thema laden, die mögliche Dupletten sind
  2. Die Daten vergleichen, mergen oder als unique kennzeichnen oder komplett löschen

Solution Idea

In parallel, we are developing an intelligent duplicate detection module, because the decisive challenge in this database network is the digitally automated filtering of duplicate content, so that users can find each initiative and each event only once on all participating platforms, even if it has been entered or edited independently on several portals.

https://wechange.de/project/fairsync/note/foerderprojekt-fairsync-schnittstelle-zwis/

Current Development on Duplicate checker: kartevonmorgen/openfairdb#301 and Similarity Detection: #20

@wellemut wellemut converted this from a draft issue Dec 9, 2023
@wellemut wellemut moved this from Duplicate recognition to 🏗 In progress in FairSync - Transform_D Dec 9, 2023
@wellemut wellemut moved this from 🏗 In progress to 🔖 Ready in FairSync - Transform_D Dec 9, 2023
@wellemut wellemut moved this from 🔖 Ready to Duplicate recognition in FairSync - Transform_D Dec 21, 2023
@wellemut wellemut added the epic label Dec 21, 2023
@wellemut wellemut mentioned this issue Feb 8, 2024
12 tasks
@wellemut
Copy link
Member Author

wellemut commented Oct 1, 2024

Latest Strategy in Duplicate checking in this issue: #20

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
Status: 👀 In review
Development

No branches or pull requests

1 participant