Le projet BigScience a permis d'entraîner un grand modèle de langue multilingue selon les principes de la science ouverte. Ce modèle existe en plusieurs tailles, le plus petit comprenant 560M de paramètres, le plus gros 176B de paramètres. Ce modèle est présenté dans une publication collective; d'autres publications ont été réalisées également pour documenter des aspects particuliers du modèle (par exemple le coût carbone de l'apprentissage https://arxiv.org/abs/2211.02001), ou encore une dérivation du modèle par fine-tuning donnant lieux aux familles mT0 et Bloomz.
Ce modèle est doublement intéressant: (a) il est complètement disponible, et tous les détails concernant son apprentissage (y compris les corpus) et son exploitation sont publics, ce qui permet d'étudier son fonctionnement en profondeur; (b) par rapport à d'autres modèles il a été entrainé avec un mélange de documents qui accorde une large part au français (15% des données d'apprentissage) et aux langues romanes (35% des données), et dans un autre genre, aux langages de programmation.
Dans le cadre de la préparation de la publication "générale" des premiers éléments d'évaluation du modèle ont été produits pour comparer ce modèle avec des modèles comparables en taille et en ambition. Ainsi, les performances de BLOOM comme système de traduction automatique ont été mesurées en étudiant quelques aspects: importance de la formulation de l'instruction (prompt), performance pour divers couples de langues en fonction de la taille des données d'apprentissage (en particulier depuis et vers le français), importance des grands contextes.
Ce projet a permis de tester BLOOM pour un large évantail de tâches standard pour le traitement automatique de la langue française (en réutilisant certaines tâches de FLUE ainsi que d'autres tâches équivalentes comme WikiAnn ou mSum) qui pourraient être mise à disposition de la communauté. Les résultats obtenus confirment les principaux résultats observés sur la langue anglaise, et mettent en évidence le (léger) bénéfice de disposer d'invites rédigés en langue française. Ces résultats fournissent également un ensemble de résultats de base qui pourront servir dans le cadre de comparaison avec des modèles plus récents ou de plus petite taille.
En parallèle nous avons pu documenter et faciliter l'utilisation de BLOOM pour en faciliter l'usage sur Jean Zay, et réaliser diverses améliorations des divers outils logiciels (promptsource etlm-harness) utilisés pour l'évaluation.
Ce projet a été réalisé avec le support avancé de l'IDRIS sous le nom du projet "Bloume".
Les participants au projet :
- François Yvon (Sorbonne-Université & CNRS, ISIR)
- Rachel Bawden (Inria Paris)
- Aurélie Névéol (Université Paris-Saclay & CNRS, LISN)
- Marco Naguib (Université Paris-Saclay & CNRS, LISN)
- Hatim Bourfoune (CNRS, IDRIS)
- Bertand Cabot (CNRS, IDRIS)
- Nathan Cassereau (CNRS, IDRIS)
- Pierre Cornette (CNRS, IDRIS)
Les modèles produits par BigScience, disponibles depuis le Hub huggingface (et sur JZ)
- Bloom dans toutes ses versions, un modèle de langue causal multilingue (pur décodeur)
- Bloomz et mT0, dérivés respectivement de Bloom et mT5
- Modélisation des langues: wikitxt-fr-2022 et Flores
- Classification de sentiments: Amazon_reviews_multi
- Implication textuelle: XNLI
- Entités nommées: wikiNER_fr et quaero
- Traduction automatique: WMT_14 et Flores
- Résumé de textes: wiki_lingua
- Biais et stéréotypes: Crows_pairs_multilingual et bias_shades
Les données produites pendant le projet sont librement disponibles sur zenodo: https://zenodo.org/records/10260361.
L'ensemble de ce travail est décrit dans la publication suivante:
Rachel Bawden, Hatim Bourfoune, Bertrand Cabot, Nathan Cassereau, Pierre Cornette, Marco Naguib, Aurélie Névéol et François Yvon. Les modèles Bloom pour le traitement automatique de la langue française. Rapport Technique, 2024. ⟨hal-04435371⟩
@misc{bawden:hal-04435371,
TITLE = {{Les mod{\`e}les Bloom pour le traitement automatique de la langue fran{\c c}aise}},
AUTHOR = {Bawden, Rachel and Bourfoune, Hatim and Cabot, Bertrand and Cassereau, Nathan and Cornette, Pierre and Naguib, Marco and N{\'e}v{\'e}ol, Aur{\'e}lie and Yvon, Fran{\c c}ois},
URL = {https://hal.science/hal-04435371},
NOTE = {working paper or preprint},
YEAR = {2024},
MONTH = {Feb},
HAL_ID = {hal-04435371},
HAL_VERSION = {v1},
}