Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Sortir des illustrations libres de EOL.org qui correspondent à des espèces CITES #4

Open
cecilaki opened this issue Sep 12, 2019 · 21 comments

Comments

@cecilaki
Copy link
Contributor

cecilaki commented Sep 12, 2019

EOL (Encyclopedia Of Life), est un projet de bio-encyclopédie collaborative en ligne, inspirée du système de Wikipédia, mais rédigée principalement par des experts. L'idée est que chaque espèce connue puisse être répertoriée et illustrée de vidéos,sons, images, et de textes fournis par des experts. Toutes les photos présentes dans EOL ne sont pas forcément libres de droit.

Afin de faire référencer sur Wikidata les illustrations manquantes des espèces CITES qui sont déjà matchées sur Wikidata, il convient de :

1 - Identifier et établir une liste des espèces référencées qui n'ont pas d'illustration
2 - Pour cette liste, chercher des images libres de droit sur EOL (licence CC-0)
3 - Établir une liste des liens de référence de ces images
4 - Engager un process de correspondance de liens de ces images avec les espèces sur Wikidata
4 bis - Ou les télécharger de EOL pour les verser dans WikiCommons et ensuite les faire référencer par espèce

@cecilaki cecilaki changed the title Extraction des illustrations eol.org Sortir des illustrations libres de EOL.org qui correspondent à des espèces CITES Sep 20, 2019
@cecilaki
Copy link
Contributor Author

@bybysker tu noteras tes recherches ici ?

@itly314
Copy link
Collaborator

itly314 commented Sep 30, 2019

il paraît que les licences CC-BY et CC-BY-SA sont aussi compatibles avec Wiki Commons :

https://commons.wikimedia.org/wiki/Commons:Licensing#Well-known_licenses

Il faudrait cependant attribuer la source, si on utilise ces types d'images

@bybysker
Copy link
Collaborator

bybysker commented Oct 7, 2019

On dispose au niveau de EOL d'une API qui recence l'ensemble des jeux de donnés provenant des partenaires de EOL, qui participent justement à la complétion de la base de données EOL.
L'idée est donc de :

  • Extraire les jeux de données (datasets) contenant des images d'espèces
  • Croiser ces datasets avec la liste des espèces CITES n'ayant pas encore de photos
  • Faire une requête pour joindre à chaque espèce dans la base CITES le lien de(s) l'image(s) qui lui correspond(ent)

Pour ce faire, le dataset s'avérant le plus est celui de WikiMedia

@itly314 itly314 self-assigned this Oct 9, 2019
@cecilaki
Copy link
Contributor Author

cecilaki commented Oct 9, 2019

La liste des espèces Wikidata avec l'ID Cites à qui il manque une photo :
12590 espèces sont actuellement sans image

@cecilaki cecilaki added the Images label Oct 9, 2019
@bybysker
Copy link
Collaborator

@bybysker tu noteras tes recherches ici ?

Oui oui, ca marche

@pzwsk
Copy link
Contributor

pzwsk commented Oct 10, 2019 via email

@cecilaki
Copy link
Contributor Author

En effet. Et comment tu mesurerais la qualité des illustrations disponibles ?

@itly314
Copy link
Collaborator

itly314 commented Oct 10, 2019

@pzwsk, hmm, pour contrôler les images déjà existantes, serions nous capables de les distinguer de ceux qu'on aura importer de EOL?

Et comment saurait-on que les images de EOL serons de meilleur qualité ?

Je pense que la bonne approche serait

  1. D'abord importer des images pour les espèces qui n'ont en pas
  2. Ensuite, chercher des images supplémentaires pour les espèces qui en avait déjà
  3. Faire une vérification globale de la qualité des images pour toutes les espèces qui auront maintenant des images. Pour cette étape, nous serons probablement amené à s'appuyer sur des techniques de machine learning .. ou bien de payer des gens sur Mechanical Turk ;-p

De toute façon, pour garder des traces, et pour retrouver des sous-ensembles qu'on souhaiterait revoir ultérieurement, nous pouvons envisager un CSV dont on met à jour la version dans Github

@pzwsk
Copy link
Contributor

pzwsk commented Oct 10, 2019 via email

@itly314
Copy link
Collaborator

itly314 commented Oct 10, 2019

@bybysker, j'ai regarder la doc pour les Data Services de EoL

EoL data services
https://eol.org/docs/what-is-eol/data-services/classic-apis

Il semble relativement simple d'obtenir du JSON.

Cependant, il va falloir

  1. passer une requête par espèce qu'on recherche
  2. analyser les résultats pour extraire la bonne ID EOL pour chaque espèce
  3. avec ces IDs passer une nouvelle série de requêtes pour trouver des éventuelles images

J'imagine que Python serait le bon outil pour faire tout ça. Peut-on créer un Jupyter Notebook partagé quelque part pour travailler ces points ensembles ?

@bybysker
Copy link
Collaborator

Ca semble intéressant les API . Surtout dans la mesure où ca centraliserait tous les datasets. Mais, sur le site, il y a juste un sample . Mais pas l'API complète . Si ?

@itly314
Copy link
Collaborator

itly314 commented Oct 15, 2019

Justement, je crois que l'API est relativement simple et consiste en ces trois URLs qui sont exposés sur la page mentionnée dessus (Data Services). Pour faire des requêtes, on modifie les paramètres dans l'URL et on obtient du JSON. Il n'y a pas besoin d'une authentification puisque la base est ouverte.

@bybysker
Copy link
Collaborator

Okay je vois ... Je verrai ça ce week-end !

@itly314
Copy link
Collaborator

itly314 commented Oct 19, 2019 via email

@pzwsk
Copy link
Contributor

pzwsk commented Oct 20, 2019 via email

@itly314
Copy link
Collaborator

itly314 commented Oct 20, 2019 via email

@pzwsk
Copy link
Contributor

pzwsk commented Oct 20, 2019 via email

@bybysker
Copy link
Collaborator

Apparemment pour pouvoir requéter en toute tranquillité l' API de EOL, il faudrait avoir les droits. J'ai fait une demande par mail comme il est stipulé sur la page: https://github.com/EOL/eol_website/blob/master/doc/api.md

En espérant qu'il réponde tôt ...

@itly314
Copy link
Collaborator

itly314 commented Oct 24, 2019

@pzwsk, je comprends maintenant. C'est une bonne idée.

Oui d'où ma suggestion : utiliser les ids déjà disponibles dans eol et wikidata pour faire la correspondance si c'est possible. Par exemple l id uicn est dans les 2 bases pour pas mal d especes il me semble. On peut utiliser le nom scientifique sinon.

@bybysker
Copy link
Collaborator

  • Make a Google Collab to work together on the API requests via Python
  • Try to get Id ; dataObjectVersionId ; License ; creator name and mediaURL
  • The possible methodology is :

Scientific Name --> Search API : Take Id in results
Id --> Pages API : Get dataObjectId and mediaURL

TODO : Find a way to directly address DataObject API

@cecilaki
Copy link
Contributor Author

Question : que faire des images EOL qui pourraient compléter l'illustration des espèces ?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

4 participants