Skip to content

Latest commit

 

History

History
31 lines (21 loc) · 3.11 KB

extract-feature.md

File metadata and controls

31 lines (21 loc) · 3.11 KB

Fonction "Extract"

Il s'agit d'une fonction du moteur de recherche de l'API ISTEX permettant d’extraire sous forme d’une archive zip le corpus correspondant à des critères de recherche. Elle s’utilise directement dans l’URL de requêtage sur l’API en la paramétrant selon ses besoins

Avantages :

  • simple à utiliser, cette fonction ne nécessite aucune installation
  • elle peut être utilisée en dehors du réseau interne de l'Inist-CNRS, la gestion de l’authentification s’opérant via la fédération d’identité ou par adresse IP
  • elle permet l'extraction des enrichissements lorsqu'ils existent
  • elle offre le téléchargement des annexes et couvertures disponibles
  • les documents extraits peuvent être répartis ou non dans une arborescence selon le choix retenu
  • il est possible de réduire la taille du corpus à télécharger (paramètre size)
  • si la taille du corpus extrait est réduite, on peut choisir un autre mode de tri que celui par pertinence effectué par le moteur de recherche, c’est-à-dire un tri des documents en fonction de certain champs (paramètre sortBy), ou selon un tri aléatoire (paramètre rankBy=random) avec la possibilité de retrouver cet ordre aléatoire (paramètre randomSeed) ou bien encore selon un tri utilisant un score relevé par la qualité (paramètre rankBy=qualityOverRelevance)

Inconvénient :

  • les corpus ne peuvent être extraits actuellement que dans la limite de 100 000 documents

Mode d'emploi :

  • cette fonction, ainsi que la syntaxe requise pour son utilisation et les différents paramètres disponibles, sont décrits dans la rubrique "Extraction" de la documentation technique ISTEX

Astuces :

  • la fonction extract utilisée seule génère l’extraction de l’ensemble des fichiers disponibles pour les documents ISTEX du corpus.
  • la fonction extract, suivie par le signe "=" et une valeur quelconque, génère uniquement l’extraction du fichier de métadonnées au format JSON
  • sans indication de format, tous les formats proposés pour le type de fichier indiqué seront extraits
  • sans précision du paramètre size, 5 documents seront extraits par défaut. Pour extraire tous les documents répondant à une requête donnée, indiquer une taille de corpus au moins égale au nombre maximal de documents à extraire