-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathProblèmes data.txt
37 lines (34 loc) · 1.81 KB
/
Problèmes data.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
--> lignes en doubles : correction en les aggrégeant
--> valeurs nulles (ex : ''): correction par la suppression
--> valeurs à multiples labels (corrects et incorrects) : ?
--> valeurs incohérentes facilement identifiable (ex : N° de tel) : correction par la suppression
--> valeurs mal-orthographié : correction en gardant l'orthographe prépondérante (mesure de JeSaisPlusQui)
--> valeurs en CAPS, d'autres non : on choisi une norme
--> précisions entre : normaliser en les retirant
- toute partie entre parenthèses
- aéroport
- street
- avenue
- city, ciudad
- nombre
- cedex
- west,east,north,south ?
- prov (pour province)
- ...
--> noms inversés (ex : 'ZURICH FLUGHAFEN' et 'FLUGHAFEN ZURICH') : normaliser en comparant les noms triés dans l'ordre alphabétique
--> erreurs prédominantes sur l'information correcte : ???
Démarche :
#0) extraire les données du fichier initial
#1) agréger les doublons
#2) supprimer les nulls
#3) corriger les countryCode faux (peu représenté) : remplacement par le plus prépondérent
#4) supprimer les incohérents faciles
#5) supprimer les termes inutiles -> on sauve quelque part l'association "terme initial" -> "terme nettoyé"
#6) replacer les sous-mots par ordre alphabétique (trie) -> on sauve quelque part l'association "terme initial" -> "terme inversé"
#7) agréger les similaires
#8) retirer les incohérents difficiles (classe 1 représentant, caractères incohérents dans le représentant, peu de représentativité)
#9) choisir le représentants de chaque classes de similaires
#9.5) corriger les erreurs d'agrégation facilement rattrapables
#10) extraire correctement les noms de country
#11) écrire le fichier de sortie : InputCity, CN, OutputCity, CountryName
# --> demande de remonter la chaîne de dictionnaires générée