GOAL2: intelligent duplicate detection module #7

wellemut · 2023-12-09T17:02:21Z

Userstories

Check out Goal 1 for that #6

Usecase A: HLNUG/ Jetztklimachen; Ich habe eine Liste mit 500 Einträgen, die ich auf einer Karte sehen will, mit möglichst vielen Nutzern und großer Reichweite

CSV-Datei ins richtige Format bringen, eine Preview der Orte und Einträge prüfen und importieren
Prüfen, welche Daten davon bereits auf der Karte sind und möglichst sinnvoll (und schnell) zu einem eindeutigen Ergebnis kommen.

Usecase B: Netzwerker: Repaircafees gibt es viele auf der OSM, beim Netzwerk der Reparaturinitiativen und auf der kvm #13 . Mich nervt, dass es keine vollständige Karte gibt denn ich will für meine Nutzer meiner Webseite eine vollständige und akutelle Karte aller Reparaturcafees darstellen.

Ich habe alle APIs mit entsprechenden Such-Queries für Repaircafees von OSM und Anstiftung, möchte sie ins richtige Format bringen, eine Preview der Orte und Einträge prüfen und alle importieren
Ich will sehen, welche Einträge dupletten erzeugen, diese Moderieren und auch bei den eindeutigen einmal durchscrollen, ob sie wirklich unique sind
Wenn sich ein Eintrag auf einer Partnerkarte aktualisiert, soll er sich auch auf meiner Karte aktualisieren. Auch wenn der Eintrag woanders gelöscht wird, soll er sich bei mir löschen
Wenn andere Plattform ihre Datenbanken auch vervollständigen wollen, sollen sie das ohne viel technischen Aufwand machen können, ohne dass sie nochmal prüfen müssen, was dupletten sind

Usecase C: Regionalpilot/ Themenpilot: Auf der kvm fällt mir auf, dass es viele Einträge doppelt gibt, das nervt. Ich will für meine Region/thema die Daten bereinigen

Alle neuen [wurden verändert/kamen hinzu seit meiner letzten Prüfung] Daten (der ofDB) in meinem Ausschnit/Thema laden, die mögliche Dupletten sind
Die Daten vergleichen, mergen oder als unique kennzeichnen oder komplett löschen

Solution Idea

In parallel, we are developing an intelligent duplicate detection module, because the decisive challenge in this database network is the digitally automated filtering of duplicate content, so that users can find each initiative and each event only once on all participating platforms, even if it has been entered or edited independently on several portals.

https://wechange.de/project/fairsync/note/foerderprojekt-fairsync-schnittstelle-zwis/

Current Development on Duplicate checker: kartevonmorgen/openfairdb#301 and Similarity Detection: #20

wellemut · 2024-10-01T16:21:04Z

Latest Strategy in Duplicate checking in this issue: #20

wellemut added this to FairSync - Transform_D Dec 2, 2023

wellemut converted this from a draft issue Dec 9, 2023

wellemut mentioned this issue Dec 9, 2023

GOAL 1: interface module to connect all sustainability maps #6

Open

wellemut moved this from Duplicate recognition to 🏗 In progress in FairSync - Transform_D Dec 9, 2023

wellemut moved this from 🏗 In progress to 🔖 Ready in FairSync - Transform_D Dec 9, 2023

wellemut moved this from 🔖 Ready to Duplicate recognition in FairSync - Transform_D Dec 21, 2023

wellemut added the epic label Dec 21, 2023

wellemut mentioned this issue Feb 8, 2024

Project Goal FairSync #15

Open

12 tasks

wellemut added the 0 duplicate detection label May 2, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

GOAL2: intelligent duplicate detection module #7

GOAL2: intelligent duplicate detection module #7

wellemut commented Dec 9, 2023 •

edited

Loading

wellemut commented Oct 1, 2024

GOAL2: intelligent duplicate detection module #7

GOAL2: intelligent duplicate detection module #7

Comments

wellemut commented Dec 9, 2023 • edited Loading

Userstories

Usecase A: HLNUG/ Jetztklimachen; Ich habe eine Liste mit 500 Einträgen, die ich auf einer Karte sehen will, mit möglichst vielen Nutzern und großer Reichweite

Usecase B: Netzwerker: Repaircafees gibt es viele auf der OSM, beim Netzwerk der Reparaturinitiativen und auf der kvm #13 . Mich nervt, dass es keine vollständige Karte gibt denn ich will für meine Nutzer meiner Webseite eine vollständige und akutelle Karte aller Reparaturcafees darstellen.

Usecase C: Regionalpilot/ Themenpilot: Auf der kvm fällt mir auf, dass es viele Einträge doppelt gibt, das nervt. Ich will für meine Region/thema die Daten bereinigen

Solution Idea

wellemut commented Oct 1, 2024

wellemut commented Dec 9, 2023 •

edited

Loading