From 806457e0880fe2d0085b731b0e51074f3b48252b Mon Sep 17 00:00:00 2001
From: lbourdois <58078086+lbourdois@users.noreply.github.com>
Date: Wed, 1 Mar 2023 17:46:44 +0100
Subject: [PATCH 01/16] Add Sasha
---
chapters/en/chapter1/1.mdx | 2 ++
1 file changed, 2 insertions(+)
diff --git a/chapters/en/chapter1/1.mdx b/chapters/en/chapter1/1.mdx
index 30c992371..b1cf88793 100644
--- a/chapters/en/chapter1/1.mdx
+++ b/chapters/en/chapter1/1.mdx
@@ -47,6 +47,8 @@ About the authors:
[**Dawood Khan**](https://huggingface.co/dawoodkhan82) is a Machine Learning Engineer at Hugging Face. He's from NYC and graduated from New York University studying Computer Science. After working as an iOS Engineer for a few years, Dawood quit to start Gradio with his fellow co-founders. Gradio was eventually acquired by Hugging Face.
+[Sasha Luccioni](https://huggingface.co/sasha) is a researcher at Hugging Face, where she works on the ethical and societal impacts of machine learning models.
+
[**Merve Noyan**](https://huggingface.co/merve) is a developer advocate at Hugging Face, working on developing tools and building content around them to democratize machine learning for everyone.
[**Lucile Saulnier**](https://huggingface.co/SaulLu) is a machine learning engineer at Hugging Face, developing and supporting the use of open source tools. She is also actively involved in many research projects in the field of Natural Language Processing such as collaborative training and BigScience.
From c0cd4dbe66d41cc5ac1b6f2344f7f728a22c46ec Mon Sep 17 00:00:00 2001
From: lbourdois <58078086+lbourdois@users.noreply.github.com>
Date: Wed, 1 Mar 2023 17:47:25 +0100
Subject: [PATCH 02/16] Add Sasha
---
chapters/fr/chapter1/1.mdx | 2 ++
1 file changed, 2 insertions(+)
diff --git a/chapters/fr/chapter1/1.mdx b/chapters/fr/chapter1/1.mdx
index c631bce23..4365d731f 100644
--- a/chapters/fr/chapter1/1.mdx
+++ b/chapters/fr/chapter1/1.mdx
@@ -46,6 +46,8 @@ Après avoir terminé ce cours, nous vous recommandons de suivre la [Spécialisa
[**Dawood Khan**](https://huggingface.co/dawoodkhan82) est un ingénieur en apprentissage automatique chez Hugging Face. Il vient de New York et est diplômé en informatique de l’Université de New York. Après avoir travaillé comme ingénieur iOS pendant quelques années, Dawood a quitté son poste pour créer Gradio avec ses cofondateurs. Gradio a finalement été acquis par Hugging Face.
+[Sasha Luccioni](https://huggingface.co/sasha) est chercheuse chez Hugging Face, où elle travaille sur les impacts éthiques et sociétaux des modèles d'apprentissage automatique.
+
[**Merve Noyan**](https://huggingface.co/merve) est développeuse *advocate* chez Hugging Face et travaille à la création d'outils et de contenus visant à démocratiser l'apprentissage machine pour tous.
[**Lucile Saulnier**](https://huggingface.co/SaulLu) est ingénieure en apprentissage machine chez Hugging Face et travaille au développement et à l'implémentation de nombreux outils *open source*. Elle est également activement impliquée dans de nombreux projets de recherche dans le domaine du NLP comme l'entraînement collaboratif de modèles et le projet [BigScience](https://bigscience.huggingface.co/).
From c05598ce7b1471bf46b430b215c748080a1d48b7 Mon Sep 17 00:00:00 2001
From: lbourdois <58078086+lbourdois@users.noreply.github.com>
Date: Wed, 1 Mar 2023 17:48:39 +0100
Subject: [PATCH 03/16] Fix typos
---
chapters/fr/chapter7/5.mdx | 10 +++++-----
1 file changed, 5 insertions(+), 5 deletions(-)
diff --git a/chapters/fr/chapter7/5.mdx b/chapters/fr/chapter7/5.mdx
index 0a963e8cb..3b997d136 100644
--- a/chapters/fr/chapter7/5.mdx
+++ b/chapters/fr/chapter7/5.mdx
@@ -589,7 +589,7 @@ def compute_metrics(eval_pred):
Ensuite, nous devons définir un assembleur de données pour notre tâche de séquence à séquence. Comme mT5 est un *transformer* encodeur-décodeur, une des subtilités de la préparation de nos batchs est que, pendant le décodage, nous devons décaler les étiquettes d'une unité vers la droite. Ceci est nécessaire pour garantir que le décodeur ne voit que les étiquettes de vérité terrain précédentes et non les étiquettes actuelles ou futures, qui seraient faciles à mémoriser pour le modèle. Cela ressemble à la façon dont l'auto-attention masquée est appliquée aux entrées dans une tâche comme [la modélisation causale du langage](/course/fr/chapter7/6).
-Heureusement, 🤗 *Transformers* fournit un assembleur `DataCollatorForSeq2Seq` qui rembourrera dynamiquement les entrées et les étiquettes pour nous. Pour instancier ce assembleur, nous devons simplement fournir le *tokenizer* et le *modèle* :
+Heureusement, 🤗 *Transformers* fournit un assembleur `DataCollatorForSeq2Seq` qui rembourrera dynamiquement les entrées et les étiquettes pour nous. Pour instancier cet assembleur, nous devons simplement fournir le *tokenizer* et le *modèle* :
{#if fw === 'pt'}
@@ -609,7 +609,7 @@ data_collator = DataCollatorForSeq2Seq(tokenizer, model=model, return_tensors="t
{/if}
-Voyons ce que produit ce assembleur lorsqu'on lui donne un petit batch d'exemples. Tout d'abord, nous devons supprimer les colonnes contenant des chaînes de caractères, car le assembleur ne saura pas comment remplir ces éléments :
+Voyons ce que produit cet assembleur lorsqu'on lui donne un petit batch d'exemples. Tout d'abord, nous devons supprimer les colonnes contenant des chaînes de caractères, car l'assembleur ne saura pas comment remplir ces éléments :
```python
tokenized_datasets = tokenized_datasets.remove_columns(
@@ -617,7 +617,7 @@ tokenized_datasets = tokenized_datasets.remove_columns(
)
```
-Comme le assembleur attend une liste de `dict`, où chaque `dict` représente un seul exemple du jeu de données, nous devons également mettre les données dans le format attendu avant de les transmettre au assembleur de données :
+Comme l'assembleur attend une liste de `dict`, où chaque `dict` représente un seul exemple du jeu de données, nous devons également mettre les données dans le format attendu avant de les transmettre à l'assembleur de données :
```python
features = [tokenized_datasets["train"][i] for i in range(2)]
@@ -700,7 +700,7 @@ Pour conclure cette section, voyons comment nous pouvons également *finetuner*
{:else}
-Nous sommes presque prêts à nous entraîner ! Nous devons juste convertir nos jeux de données en `tf.data.Dataset` en utilisant le assembleur de données que nous avons défini ci-dessus, puis utiliser `compile()` et `fit()`. D'abord, les jeux de données :
+Nous sommes presque prêts à nous entraîner ! Nous devons juste convertir nos jeux de données en `tf.data.Dataset` en utilisant l'assembleur de données que nous avons défini ci-dessus, puis utiliser `compile()` et `fit()`. D'abord, les jeux de données :
```python
tf_train_dataset = model.prepare_tf_dataset(
@@ -835,7 +835,7 @@ Maintenant que nous avons des jeux de données constitués uniquement de tenseur
model = AutoModelForSeq2SeqLM.from_pretrained(model_checkpoint)
```
-Nous pouvons ensuite instancier le assembleur de données et l'utiliser pour définir nos chargeurs de données :
+Nous pouvons ensuite instancier l'assembleur de données et l'utiliser pour définir nos chargeurs de données :
```python
from torch.utils.data import DataLoader
From 4e4a84a6c1b90c8941db7ed69be1c84529a541a2 Mon Sep 17 00:00:00 2001
From: lbourdois <58078086+lbourdois@users.noreply.github.com>
Date: Wed, 1 Mar 2023 17:49:16 +0100
Subject: [PATCH 04/16] Fix typos
---
chapters/fr/chapter7/6.mdx | 2 +-
1 file changed, 1 insertion(+), 1 deletion(-)
diff --git a/chapters/fr/chapter7/6.mdx b/chapters/fr/chapter7/6.mdx
index 91c90a96c..2529d3bc8 100644
--- a/chapters/fr/chapter7/6.mdx
+++ b/chapters/fr/chapter7/6.mdx
@@ -324,7 +324,7 @@ _________________________________________________________________
{/if}
-Notre modèle comporte 124 millions de paramètres que nous devrons régler. Avant de commencer l'entraînement, nous devons configurer un assembleur de données qui se chargera de créer les batchs. Nous pouvons utiliser le assembleur `DataCollatorForLanguageModeling`, qui est conçu spécifiquement pour la modélisation du langage (comme son nom le suggère subtilement). En plus de l'empilage et du rembourrage des batchs, il s'occupe aussi de la création des étiquettes du modèle de langage. Dans la modélisation causale du langage, les entrées servent aussi d'étiquettes (juste décalées d'un élément) et que le assembleur de données crée à la volée pendant l'entraînement pour ne pas avoir à dupliquer les `input_ids`.
+Notre modèle comporte 124 millions de paramètres que nous devrons régler. Avant de commencer l'entraînement, nous devons configurer un assembleur de données qui se chargera de créer les batchs. Nous pouvons utiliser l'assembleur `DataCollatorForLanguageModeling`, qui est conçu spécifiquement pour la modélisation du langage (comme son nom le suggère subtilement). En plus de l'empilage et du rembourrage des batchs, il s'occupe aussi de la création des étiquettes du modèle de langage. Dans la modélisation causale du langage, les entrées servent aussi d'étiquettes (juste décalées d'un élément) et que l'assembleur de données crée à la volée pendant l'entraînement pour ne pas avoir à dupliquer les `input_ids`.
Notez que `DataCollatorForLanguageModeling` supporte à la fois la modélisation du langage masqué (MLM pour *masked language modeling*) et la modélisation du langage causal (CLM pour *causal language modeling*). Par défaut, il prépare les données pour la MLM mais nous pouvons passer à la CLM en définissant l'argument `mlm=False` :
From 4a5e2c3079d9f229e21a27420f57feaaca39c07f Mon Sep 17 00:00:00 2001
From: lbourdois <58078086+lbourdois@users.noreply.github.com>
Date: Wed, 8 Mar 2023 17:53:07 +0100
Subject: [PATCH 05/16] Adding missing tasks
Transcripts of task videos present on YT but not in the course
---
...\360\237\244\227-image-classification.srt" | 55 +++++++++++
..._07_\360\237\244\227-object-detection.srt" | 43 +++++++++
...\360\237\244\227-audio-classification.srt" | 55 +++++++++++
...\244\227-automatic-speech-recognition.srt" | 63 +++++++++++++
..._\360\237\244\227-text-classification.srt" | 91 +++++++++++++++++++
...1_\360\237\244\227-image-segmentation.srt" | 55 +++++++++++
...ks_12_\360\237\244\227-audio-to-audio.srt" | 51 +++++++++++
..._\360\237\244\227-sentence-similarity.srt" | 75 +++++++++++++++
...ks_14_\360\237\244\227-text-to-speech.srt" | 43 +++++++++
9 files changed, 531 insertions(+)
create mode 100644 "subtitles/fr/tasks_06_\360\237\244\227-image-classification.srt"
create mode 100644 "subtitles/fr/tasks_07_\360\237\244\227-object-detection.srt"
create mode 100644 "subtitles/fr/tasks_08_\360\237\244\227-audio-classification.srt"
create mode 100644 "subtitles/fr/tasks_09_\360\237\244\227-automatic-speech-recognition.srt"
create mode 100644 "subtitles/fr/tasks_10_\360\237\244\227-text-classification.srt"
create mode 100644 "subtitles/fr/tasks_11_\360\237\244\227-image-segmentation.srt"
create mode 100644 "subtitles/fr/tasks_12_\360\237\244\227-audio-to-audio.srt"
create mode 100644 "subtitles/fr/tasks_13_\360\237\244\227-sentence-similarity.srt"
create mode 100644 "subtitles/fr/tasks_14_\360\237\244\227-text-to-speech.srt"
diff --git "a/subtitles/fr/tasks_06_\360\237\244\227-image-classification.srt" "b/subtitles/fr/tasks_06_\360\237\244\227-image-classification.srt"
new file mode 100644
index 000000000..5fcf5c101
--- /dev/null
+++ "b/subtitles/fr/tasks_06_\360\237\244\227-image-classification.srt"
@@ -0,0 +1,55 @@
+1
+00:00:02,315 --> 00:00:06,900
+Bienvenue dans la série d'Hugging Face sur les tâches ! Dans cette vidéo, nous allons voir
+
+2
+00:00:06,900 --> 00:00:11,460
+la tâche de classification d'images. La classification d'images consiste à attribuer
+
+3
+00:00:11,460 --> 00:00:16,740
+une classe à une image. Les modèles de classification d'images prennent une image en entrée et renvoient une étiquette de classe.
+
+4
+00:00:17,520 --> 00:00:21,180
+Le modèle suppose que les images ne contiennent qu'une seule instance de classe par image.
+
+5
+00:00:22,380 --> 00:00:25,860
+Les modèles de classification d'images sont évalués sur la base des mesures de classification habituelles.
+
+6
+00:00:25,860 --> 00:00:30,480
+En plus d'une mesure plus évidente, comme la précision, une mesure couramment utilisée est le score F1,
+
+7
+00:00:30,480 --> 00:00:34,380
+qui est calculé sur la moyenne de deux mesures appelées précision et rappel.
+
+8
+00:00:35,280 --> 00:00:38,520
+Le score F1 prend en compte le déséquilibre des classes dans votre jeu de données,
+
+9
+00:00:38,520 --> 00:00:42,840
+c'est donc une meilleure indication de la façon dont votre modèle fait des prédictions sur un jeu de données déséquilibré.
+
+10
+00:00:43,980 --> 00:00:46,440
+Un exemple de jeu de données utilisé pour cette tâche est CIFAR.
+
+11
+00:00:46,980 --> 00:00:50,040
+Ici, nous pouvons voir que chaque image est associée à son étiquette.
+
+12
+00:00:51,120 --> 00:00:56,100
+La classification des images est utilisée pour un large éventail de problèmes, de l'imagerie médicale à la télédétection.
+
+13
+00:00:56,100 --> 00:01:00,960
+Un exemple d'application consiste à déterminer si un scanner contient ou non des tissus cancéreux.
+
+14
+00:01:02,520 --> 00:01:05,700
+Pour plus d'informations sur la tâche de classification d'images, consultez la page sur les tâches.
\ No newline at end of file
diff --git "a/subtitles/fr/tasks_07_\360\237\244\227-object-detection.srt" "b/subtitles/fr/tasks_07_\360\237\244\227-object-detection.srt"
new file mode 100644
index 000000000..b98d087fd
--- /dev/null
+++ "b/subtitles/fr/tasks_07_\360\237\244\227-object-detection.srt"
@@ -0,0 +1,43 @@
+1
+00:00:03,660 --> 00:00:06,120
+Bienvenue dans la série d'Hugging Face sur les tâches ! Dans cette vidéo,
+
+2
+00:00:06,120 --> 00:00:07,980
+nous allons nous pencher sur la tâche de détection d'objets.
+
+3
+00:00:08,880 --> 00:00:12,900
+La détection d'objets est la tâche qui consiste à détecter des instances d'objets dans différentes parties
+
+4
+00:00:12,900 --> 00:00:16,440
+d'une image donnée. Les modèles de détection d'objets reçoivent une image en entrée
+
+5
+00:00:16,440 --> 00:00:20,520
+et produisent les coordonnées des boîtes de délimitation et les étiquettes associées des objets détectés.
+
+6
+00:00:21,360 --> 00:00:24,900
+Les tâches de détection d'objets sont évaluées en termes de précision moyenne (ou mAP),
+
+7
+00:00:25,440 --> 00:00:29,340
+Il s'agit d'une métrique qui évalue le chevauchement entre le masque prédit et le masque de vérité terrain.
+
+8
+00:00:30,420 --> 00:00:33,840
+La mAP est mesurée à différents seuils, ce qui devrait permettre de savoir si vous avez
+
+9
+00:00:33,840 --> 00:00:38,040
+un vrai positif ou un faux positif. Les systèmes de détection d'objets sont utilisés pour
+
+10
+00:00:38,040 --> 00:00:42,660
+les systèmes de détection d'objets sont utilisés pour le comptage des foules pour la distanciation sociale, la détection des masques de visage et même les systèmes de conduite autonome.
+
+11
+00:00:43,320 --> 00:00:46,080
+Pour plus d'informations sur la tâche de détection d'objets, consultez la page sur les tâches d'Hugging Face.
\ No newline at end of file
diff --git "a/subtitles/fr/tasks_08_\360\237\244\227-audio-classification.srt" "b/subtitles/fr/tasks_08_\360\237\244\227-audio-classification.srt"
new file mode 100644
index 000000000..0c8b5a47b
--- /dev/null
+++ "b/subtitles/fr/tasks_08_\360\237\244\227-audio-classification.srt"
@@ -0,0 +1,55 @@
+1
+00:00:02,640 --> 00:00:07,200
+Bienvenue dans la série d'Hugging Face sur les tâches ! Dans cette vidéo, nous allons voir
+
+2
+00:00:07,200 --> 00:00:12,900
+la tâche de classification audio. La classification audio est une tâche qui consiste à attribuer
+
+3
+00:00:12,900 --> 00:00:17,160
+une étiquette à un fichier audio donné. Des exemples sont la détection de la langue du locuteur,
+
+4
+00:00:17,160 --> 00:00:22,980
+la reconnaissance de commandes courtes, comme lecture ou pause, l'identification du locuteur, et bien d'autres choses encore !
+
+5
+00:00:22,980 --> 00:00:27,000
+Examinons rapidement le problème de la reconnaissance des commandes. L'entrée est la
+
+6
+00:00:27,000 --> 00:00:32,220
+forme d'onde audio, qui est une donnée brute pour l'audio. La sortie est une classe, qui peut être une
+
+7
+00:00:32,220 --> 00:00:38,520
+commande telle que "play", "pause", "up", "down", etc. Comme dans les tâches de classification habituelles,
+
+8
+00:00:38,520 --> 00:00:44,880
+les modèles de classification audio sont évalués sur la base de mesures telles que F1, Accuracy, Recall, Precision, etc.
+
+9
+00:00:45,660 --> 00:00:49,860
+Il existe de grands modèles pré-entraînés tels que Wav2Vec2 et HuBERT pouvant être
+
+10
+00:00:49,860 --> 00:00:53,280
+finetunés pour les tâches de classification audio avec la bibliothèque de Transformers.
+
+11
+00:00:53,940 --> 00:00:57,360
+SpeechBrain est une autre bibliothèque facile à utiliser pour la classification audio.
+
+12
+00:00:57,360 --> 00:01:02,760
+Un exemple de benchmark utilisé pour cette tâche est Superb, qui
+
+13
+00:01:02,760 --> 00:01:07,140
+contient des jeux de données pour le repérage de mots clés, la classification des intentions, la reconnaissance des émotions, etc.
+
+14
+00:01:08,100 --> 00:01:12,000
+Pour plus d'informations sur la tâche de classification audio, consultez la page sur les tâches.
\ No newline at end of file
diff --git "a/subtitles/fr/tasks_09_\360\237\244\227-automatic-speech-recognition.srt" "b/subtitles/fr/tasks_09_\360\237\244\227-automatic-speech-recognition.srt"
new file mode 100644
index 000000000..a6b449904
--- /dev/null
+++ "b/subtitles/fr/tasks_09_\360\237\244\227-automatic-speech-recognition.srt"
@@ -0,0 +1,63 @@
+1
+00:00:04,019 --> 00:00:07,740
+Bienvenue dans la série d'Hugging Face sur les tâches ! Dans cette vidéo, nous allons voir
+
+2
+00:00:07,740 --> 00:00:11,940
+la tâche de reconnaissance automatique de la parole aussi connue sous le nom de "Speech to Text".
+
+3
+00:00:11,940 --> 00:00:18,540
+La reconnaissance automatique de la parole, ou ASR, consiste à transcrire un fichier audio donné en texte
+
+4
+00:00:19,320 --> 00:00:24,600
+L'ASR a de nombreuses applications. Pensez à l'utilisation d'interfaces utilisateur vocales ou quand
+
+5
+00:00:24,600 --> 00:00:30,180
+vous voyez des sous-titres générés automatiquement sur YouTube. La mesure la plus courante est le taux d'erreurs de mots,
+
+6
+00:00:30,180 --> 00:00:34,560
+ou WER (Word Error Rate), qui indique les mots qui ont été prédits à tort en déterminant
+
+7
+00:00:34,560 --> 00:00:39,300
+s'ils doivent être supprimés, remplacés ou ajoutés. Plus la valeur est faible, meilleure est la performance !
+
+8
+00:00:40,440 --> 00:00:43,560
+Comment résoudre ce problème ? Les modèles pré-entraînés tels que
+
+9
+00:00:43,560 --> 00:00:48,300
+comme Wav2Vec2 et HuBERT peuvent être finetunés pour la reconnaissance vocale avec la bibliothèque Transformers.
+
+10
+00:00:49,560 --> 00:00:54,240
+Il existe de nombreux jeux de données pour cette tâche. Librispeech est l'un des jeux de données les plus populaires pour l'anglais.
+
+11
+00:00:54,240 --> 00:00:59,220
+Mais si vous voulez un jeu de données multilingue, Common Voice et Vox Populi sont des options plus courantes.
+
+12
+00:00:59,220 --> 00:01:05,700
+Mais ne vous inquiétez pas, vous pouvez accéder à plus de 500 modèles ASR sur le Hub pour plus de 128 langues.
+
+13
+00:01:06,660 --> 00:01:10,560
+Pour savoir comment finetuner un modèle pour ASR, nous vous suggérons de consulter notre blog,
+
+14
+00:01:10,560 --> 00:01:14,700
+où nous avons des articles montrant comment finetuner Wav2Vec2 pour différentes langues.
+
+15
+00:01:15,600 --> 00:01:17,760
+Pour plus d'informations sur le système de reconnaissance vocale automatique
+
+16
+00:01:17,760 --> 00:01:20,040
+vous pouvez consulter la page sur les tâches.
\ No newline at end of file
diff --git "a/subtitles/fr/tasks_10_\360\237\244\227-text-classification.srt" "b/subtitles/fr/tasks_10_\360\237\244\227-text-classification.srt"
new file mode 100644
index 000000000..a1fa101eb
--- /dev/null
+++ "b/subtitles/fr/tasks_10_\360\237\244\227-text-classification.srt"
@@ -0,0 +1,91 @@
+1
+00:00:00,840 --> 00:00:06,420
+Bienvenue dans la série d'Hugging Face sur les tâches ! Dans cette vidéo, nous allons nous pencher sur la classification de texte.
+
+2
+00:00:08,940 --> 00:00:12,180
+Dans la classification de texte, les modèles reçoivent un texte
+
+3
+00:00:12,180 --> 00:00:16,500
+en entrée et renvoient des étiquettes de classe et leurs probabilités associées.
+
+4
+00:00:19,740 --> 00:00:23,220
+Il existe de nombreuses variantes de cette tâche qui vous permettent d'analyser les sentiments,
+
+5
+00:00:23,220 --> 00:00:29,520
+d'évaluer l'exactitude grammaticale, de déterminer si une question est une paraphrase d'une autre ou
+
+6
+00:00:29,520 --> 00:00:35,400
+déterminer si une affirmation est correcte au regard d'un texte donné. Nous ne les aborderons pas tous dans
+
+7
+00:00:35,400 --> 00:00:40,020
+Vous pouvez consulter la page sur la tâche de classification de textes pour plus de détails.
+
+8
+00:00:43,020 --> 00:00:47,340
+L'analyse des sentiments consiste à déterminer le sentiment d'un texte donné.
+
+9
+00:00:48,300 --> 00:00:53,640
+Ce modèle reçoit un texte et renvoie la polarité ou l'émotion qu'il contient.
+
+10
+00:00:56,340 --> 00:01:03,120
+Une autre variante est l'inférence en langage naturel. Les modèles d'inférence en langage naturel prennent une prémisse et une hypothèse et renvoient
+
+11
+00:01:03,120 --> 00:01:11,160
+une étiquette. Si l'hypothèse est vraie le modèle de NLI renvoie "entailment", si l'hypothèse est fausse,
+
+12
+00:01:11,160 --> 00:01:15,900
+il renvoie "contradiction" ou s'il n'y a pas de relation il renvoie "neutral".
+
+13
+00:01:19,140 --> 00:01:23,460
+Les modèles de question de NLI prennent un texte et une question et renvoient une implication.
+
+14
+00:01:24,000 --> 00:01:29,280
+si la réponse à la question peut être trouvée dans un texte, et ne renvoient pas d'implication dans le cas contraire.
+
+15
+00:01:30,000 --> 00:01:34,200
+Ce modèle peut être utilisé pour modéliser les problèmes de recherche d'information.
+
+16
+00:01:37,500 --> 00:01:45,060
+GLUE est un benchmark utilisé pour mesurer les performances des modèles de NLP sur 10 tâches de classification de texte différents.
+
+17
+00:01:45,060 --> 00:01:50,280
+Ces jeux de données sont également utiles pour finetuner les modèles de classification de texte !
+
+18
+00:01:52,620 --> 00:01:56,040
+Les modèles de classification de texte sont évalués en fonction de leur précision,
+
+19
+00:01:56,040 --> 00:02:01,200
+et du score F1. Les métriques sont calculées pour chacune des étiquettes de classe prédites pour
+
+20
+00:02:01,200 --> 00:02:05,700
+les textes et la moyenne est utilisée pour mesurer la performance globale du modèle.
+
+21
+00:02:08,820 --> 00:02:14,160
+Dans un exemple de cas d'utilisation, vous pouvez classer les commentaires de vos clients à partir du produit
+
+22
+00:02:14,160 --> 00:02:19,560
+ou des tweets à l'aide de modèles d'analyse des sentiments afin de prendre de meilleures décisions commerciales.
+
+23
+00:02:22,740 --> 00:02:26,940
+Pour plus d'informations sur la classification de textes, consultez la page consacrée aux tâches.
\ No newline at end of file
diff --git "a/subtitles/fr/tasks_11_\360\237\244\227-image-segmentation.srt" "b/subtitles/fr/tasks_11_\360\237\244\227-image-segmentation.srt"
new file mode 100644
index 000000000..9ce93520d
--- /dev/null
+++ "b/subtitles/fr/tasks_11_\360\237\244\227-image-segmentation.srt"
@@ -0,0 +1,55 @@
+1
+00:00:02,000 --> 00:00:03,960
+Bienvenue dans la série d'Hugging Face sur les tâches !
+
+2
+00:00:03,960 --> 00:00:08,340
+Dans cette vidéo, nous allons examiner la tâche de segmentation d'image.
+
+3
+00:00:09,060 --> 00:00:12,780
+La tâche de segmentation d'image divise une image en segments, où
+
+4
+00:00:12,780 --> 00:00:15,840
+chaque pixel de l'image est associé à une étiquette. Cette tâche comporte plusieurs variantes,
+
+5
+00:00:15,840 --> 00:00:19,800
+la segmentation d'instance, la segmentation panoptique et la segmentation sémantique.
+
+6
+00:00:20,760 --> 00:00:24,780
+La segmentation sémantique est la tâche qui consiste à segmenter les parties d'une image qui appartiennent à
+
+7
+00:00:24,780 --> 00:00:29,940
+la même classe. Les modèles de segmentation sémantique attribuent une probabilité de classe à chaque pixel.
+
+8
+00:00:30,900 --> 00:00:36,120
+La segmentation d'instance est la variante de la segmentation d'image dans laquelle chaque objet distinct est
+
+9
+00:00:36,120 --> 00:00:40,980
+segmenté, au lieu d'un segment par classe. La segmentation panoptique segmente l'image
+
+10
+00:00:40,980 --> 00:00:45,720
+à la fois par instance et par classe, elle attribue à chaque pixel une instance distincte de la classe.
+
+11
+00:00:47,100 --> 00:00:50,400
+Les modèles de segmentation sont évalués sur la base du chevauchement entre le masque prédit et les pixels de la classe
+
+12
+00:00:50,400 --> 00:00:53,700
+du masque de la vérité terrain. Le chevauchement est appelé Intersection-sur-Union,
+
+13
+00:00:53,700 --> 00:00:57,840
+et les métriques telles que la précision moyenne sont calculées sur l'intersection par rapport à l'union.
+
+14
+00:00:58,560 --> 00:01:01,620
+Pour plus d'informations sur la tâche de segmentation, consultez la page des tâches d'Hugging Face.
\ No newline at end of file
diff --git "a/subtitles/fr/tasks_12_\360\237\244\227-audio-to-audio.srt" "b/subtitles/fr/tasks_12_\360\237\244\227-audio-to-audio.srt"
new file mode 100644
index 000000000..76411f9a0
--- /dev/null
+++ "b/subtitles/fr/tasks_12_\360\237\244\227-audio-to-audio.srt"
@@ -0,0 +1,51 @@
+1
+00:00:02,232 --> 00:00:06,000
+Bienvenue dans la série d'Hugging Face sur les tâches !
+
+2
+00:00:06,000 --> 00:00:09,360
+Dans cette vidéo, nous allons nous pencher sur les tâches d'audio à audio.
+
+3
+00:00:09,960 --> 00:00:14,400
+L'audio à audio est une famille de tâches dans lesquelles l'entrée est un fichier audio et la sortie un autre fichier audio.
+
+4
+00:00:15,180 --> 00:00:20,040
+Examinons quelques exemples de tâches. Avec l'amélioration de la parole, vous pouvez avoir un
+
+5
+00:00:20,040 --> 00:00:25,080
+audio avec du bruit et améliorer la qualité de la parole. Mais la conversion audio à audio ne se limite pas à la sortie
+
+6
+00:00:25,080 --> 00:00:30,600
+d'un seul son. Dans la sous-tâche de séparation des sources audio, vous pouvez, à partir d'un fichier audio, isoler les éléments suivants
+
+7
+00:00:30,600 --> 00:00:34,920
+différents sons provenant de sources individuelles. Donc si vous avez un son de plusieurs personnes
+
+8
+00:00:34,920 --> 00:00:38,460
+parlant en même temps, vous pouvez extraire le son de chacune d'entre elles.
+
+9
+00:00:39,180 --> 00:00:42,960
+Il existe différentes métriques proposées pour chacune de ces tâches. Pour l'amélioration de la parole,
+
+10
+00:00:42,960 --> 00:00:47,100
+vous pouvez utiliser des métriques telles que l'évaluation perceptuelle de la qualité de la parole, ou la mesure de la qualité de la parole :
+
+11
+00:00:47,100 --> 00:00:53,580
+PESQ. Et d'autres qui sont très difficiles à prononcer. Des bibliothèques telles que SpeechBrain et Asteroid permettent de
+
+12
+00:00:53,580 --> 00:00:57,360
+d'entraîner vos modèles et de les partager facilement sur le Hub en seulement quelques lignes de code.
+
+13
+00:00:58,380 --> 00:01:02,520
+Pour plus d'informations sur la tâche d'audio à audio, cconsultez la page consacrée aux tâches.
\ No newline at end of file
diff --git "a/subtitles/fr/tasks_13_\360\237\244\227-sentence-similarity.srt" "b/subtitles/fr/tasks_13_\360\237\244\227-sentence-similarity.srt"
new file mode 100644
index 000000000..a2dbeeda1
--- /dev/null
+++ "b/subtitles/fr/tasks_13_\360\237\244\227-sentence-similarity.srt"
@@ -0,0 +1,75 @@
+1
+00:00:03,780 --> 00:00:08,760
+Bienvenue dans la série d'Hugging Face sur les tâches ! Dans cette vidéo, nous allons nous pencher sur la similarité de phrases.
+
+2
+00:00:09,420 --> 00:00:14,760
+Dans cette tâche, l'objectif est de déterminer le degré de similitude de différentes phrases. Dans cet exemple,
+
+3
+00:00:14,760 --> 00:00:19,020
+nous comparons une phrase source avec d'autres pour trouver celle qui est la plus similaire en termes de sens,
+
+4
+00:00:19,020 --> 00:00:21,960
+ce que l'on appelle la similarité sémantique textuelle.
+
+5
+00:00:22,860 --> 00:00:27,960
+Il existe d'autres sous-tâches telles que le classement de passages et le clustering qui exploitent la similarité des phrases.
+
+6
+00:00:28,860 --> 00:00:33,300
+Pour ce faire, on représente généralement chaque phrase sous la forme d'un vecteur (également appelé
+
+7
+00:00:33,300 --> 00:00:37,980
+enchâssement), qui est une liste de nombres, puis en comparant les vecteurs.
+
+8
+00:00:39,180 --> 00:00:44,160
+Cela peut s'avérer extrêmement puissant pour des tâches telles que la recherche sémantique, dans laquelle vous souhaitez
+
+9
+00:00:44,160 --> 00:00:48,180
+comprendre le contenu d'une requête de recherche en trouvant celle qui est la plus proche dans votre jeu de données.
+
+10
+00:00:49,140 --> 00:00:54,120
+Certaines métriques courantes utilisées pour cette tâche sont la similarité cosinus, le rang réciproque moyen et la correlation
+
+11
+00:00:54,120 --> 00:00:59,280
+de rangs. Ces métriques calculent essentiellement la similarité entre les vecteurs des textes d'entrée.
+
+12
+00:01:00,420 --> 00:01:06,180
+Il existe plusieurs jeux de données que nous pouvons utiliser pour chaque variante, le classement de passages utilise par exemple MSMARCO.
+
+13
+00:01:06,900 --> 00:01:09,840
+Alors que la similarité sémantique textuelle a son propre jeu de données
+
+14
+00:01:09,840 --> 00:01:12,480
+appelé "Semantic Textual Similarity Benchmark".
+
+15
+00:01:13,800 --> 00:01:17,460
+Vous pouvez utiliser des modèles de similarité de phrases pour les systèmes de recherche d'informations.
+
+16
+00:01:18,180 --> 00:01:23,160
+Si cela vous semble intéressant, Sentence Transformers est la bibliothèque à consulter, vous permettant
+
+17
+00:01:23,160 --> 00:01:28,800
+de créer des enchâssements de texte et même d'images. Il existe plus de 200 modèles dans le Hub qui peuvent
+
+18
+00:01:28,800 --> 00:01:32,940
+calculer des enchâssements de phrase, certains d'entre eux résolvant plus de 100 langues.
+
+19
+00:01:34,080 --> 00:01:38,220
+Pour plus d'informations sur la similarité de phrases, consultez la page consacrée aux tâches.
\ No newline at end of file
diff --git "a/subtitles/fr/tasks_14_\360\237\244\227-text-to-speech.srt" "b/subtitles/fr/tasks_14_\360\237\244\227-text-to-speech.srt"
new file mode 100644
index 000000000..5add32b64
--- /dev/null
+++ "b/subtitles/fr/tasks_14_\360\237\244\227-text-to-speech.srt"
@@ -0,0 +1,43 @@
+1
+00:00:03,660 --> 00:00:13,200
+Bienvenue dans la série d'Hugging Face sur les tâches ! Dans cette vidéo, nous allons examiner la tâche de synthèse vocale. Aucune discussion sur les tâches audio ne serait complète
+
+2
+00:00:13,200 --> 00:00:17,520
+sans parler de la synthèse vocale. Dans le cas de la synthèse vocale, la parole naturelle est
+
+3
+00:00:17,520 --> 00:00:23,700
+générée par un modèle à partir d'un texte. Des bibliothèques telles que ESPNet et TensorFlowTTS
+
+4
+00:00:23,700 --> 00:00:28,020
+vous permettent de charger facilement l'un des plus de 100 modèles pré-entraînés par la communauté.
+
+5
+00:00:28,860 --> 00:00:32,340
+Ces modèles peuvent même être étendus à plusieurs locuteurs et à plusieurs langues !
+
+6
+00:00:33,480 --> 00:00:36,900
+Il existe des métriques telles que le Log F0 qui nous permettent d'évaluer les
+
+7
+00:00:36,900 --> 00:00:41,460
+en reflétant les similitudes de contenu. Mais il est très difficile de déterminer la
+
+8
+00:00:41,460 --> 00:00:46,020
+qualité perceptuelle, c'est pourquoi il y a généralement des humains dans la boucle qui effectuent une évaluation qualitative.
+
+9
+00:00:47,100 --> 00:00:49,920
+Vous pouvez l'essayer dès maintenant dans une démonstration sur Spaces. Ou
+
+10
+00:00:49,920 --> 00:00:52,680
+en utilisant les widgets hébergés dans chacun des dépôts de modèles.
+
+11
+00:00:53,400 --> 00:00:56,160
+Pour plus d'informations sur TTS, consultez la page consacrée aux tâches.
\ No newline at end of file
From 048722fc8804e96c9bda290e2940fec52ddc5345 Mon Sep 17 00:00:00 2001
From: lbourdois <58078086+lbourdois@users.noreply.github.com>
Date: Thu, 12 Sep 2024 21:19:05 +0200
Subject: [PATCH 06/16] =?UTF-8?q?Delete=20subtitles/fr/tasks=5F06=5F?=
=?UTF-8?q?=F0=9F=A4=97-image-classification.srt?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit
---
...\360\237\244\227-image-classification.srt" | 55 -------------------
1 file changed, 55 deletions(-)
delete mode 100644 "subtitles/fr/tasks_06_\360\237\244\227-image-classification.srt"
diff --git "a/subtitles/fr/tasks_06_\360\237\244\227-image-classification.srt" "b/subtitles/fr/tasks_06_\360\237\244\227-image-classification.srt"
deleted file mode 100644
index 5fcf5c101..000000000
--- "a/subtitles/fr/tasks_06_\360\237\244\227-image-classification.srt"
+++ /dev/null
@@ -1,55 +0,0 @@
-1
-00:00:02,315 --> 00:00:06,900
-Bienvenue dans la série d'Hugging Face sur les tâches ! Dans cette vidéo, nous allons voir
-
-2
-00:00:06,900 --> 00:00:11,460
-la tâche de classification d'images. La classification d'images consiste à attribuer
-
-3
-00:00:11,460 --> 00:00:16,740
-une classe à une image. Les modèles de classification d'images prennent une image en entrée et renvoient une étiquette de classe.
-
-4
-00:00:17,520 --> 00:00:21,180
-Le modèle suppose que les images ne contiennent qu'une seule instance de classe par image.
-
-5
-00:00:22,380 --> 00:00:25,860
-Les modèles de classification d'images sont évalués sur la base des mesures de classification habituelles.
-
-6
-00:00:25,860 --> 00:00:30,480
-En plus d'une mesure plus évidente, comme la précision, une mesure couramment utilisée est le score F1,
-
-7
-00:00:30,480 --> 00:00:34,380
-qui est calculé sur la moyenne de deux mesures appelées précision et rappel.
-
-8
-00:00:35,280 --> 00:00:38,520
-Le score F1 prend en compte le déséquilibre des classes dans votre jeu de données,
-
-9
-00:00:38,520 --> 00:00:42,840
-c'est donc une meilleure indication de la façon dont votre modèle fait des prédictions sur un jeu de données déséquilibré.
-
-10
-00:00:43,980 --> 00:00:46,440
-Un exemple de jeu de données utilisé pour cette tâche est CIFAR.
-
-11
-00:00:46,980 --> 00:00:50,040
-Ici, nous pouvons voir que chaque image est associée à son étiquette.
-
-12
-00:00:51,120 --> 00:00:56,100
-La classification des images est utilisée pour un large éventail de problèmes, de l'imagerie médicale à la télédétection.
-
-13
-00:00:56,100 --> 00:01:00,960
-Un exemple d'application consiste à déterminer si un scanner contient ou non des tissus cancéreux.
-
-14
-00:01:02,520 --> 00:01:05,700
-Pour plus d'informations sur la tâche de classification d'images, consultez la page sur les tâches.
\ No newline at end of file
From 6f937734530733b8468783ea9b1b2be1a0a3e5e2 Mon Sep 17 00:00:00 2001
From: lbourdois <58078086+lbourdois@users.noreply.github.com>
Date: Thu, 12 Sep 2024 21:19:23 +0200
Subject: [PATCH 07/16] =?UTF-8?q?Delete=20subtitles/fr/tasks=5F07=5F?=
=?UTF-8?q?=F0=9F=A4=97-object-detection.srt?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit
---
..._07_\360\237\244\227-object-detection.srt" | 43 -------------------
1 file changed, 43 deletions(-)
delete mode 100644 "subtitles/fr/tasks_07_\360\237\244\227-object-detection.srt"
diff --git "a/subtitles/fr/tasks_07_\360\237\244\227-object-detection.srt" "b/subtitles/fr/tasks_07_\360\237\244\227-object-detection.srt"
deleted file mode 100644
index b98d087fd..000000000
--- "a/subtitles/fr/tasks_07_\360\237\244\227-object-detection.srt"
+++ /dev/null
@@ -1,43 +0,0 @@
-1
-00:00:03,660 --> 00:00:06,120
-Bienvenue dans la série d'Hugging Face sur les tâches ! Dans cette vidéo,
-
-2
-00:00:06,120 --> 00:00:07,980
-nous allons nous pencher sur la tâche de détection d'objets.
-
-3
-00:00:08,880 --> 00:00:12,900
-La détection d'objets est la tâche qui consiste à détecter des instances d'objets dans différentes parties
-
-4
-00:00:12,900 --> 00:00:16,440
-d'une image donnée. Les modèles de détection d'objets reçoivent une image en entrée
-
-5
-00:00:16,440 --> 00:00:20,520
-et produisent les coordonnées des boîtes de délimitation et les étiquettes associées des objets détectés.
-
-6
-00:00:21,360 --> 00:00:24,900
-Les tâches de détection d'objets sont évaluées en termes de précision moyenne (ou mAP),
-
-7
-00:00:25,440 --> 00:00:29,340
-Il s'agit d'une métrique qui évalue le chevauchement entre le masque prédit et le masque de vérité terrain.
-
-8
-00:00:30,420 --> 00:00:33,840
-La mAP est mesurée à différents seuils, ce qui devrait permettre de savoir si vous avez
-
-9
-00:00:33,840 --> 00:00:38,040
-un vrai positif ou un faux positif. Les systèmes de détection d'objets sont utilisés pour
-
-10
-00:00:38,040 --> 00:00:42,660
-les systèmes de détection d'objets sont utilisés pour le comptage des foules pour la distanciation sociale, la détection des masques de visage et même les systèmes de conduite autonome.
-
-11
-00:00:43,320 --> 00:00:46,080
-Pour plus d'informations sur la tâche de détection d'objets, consultez la page sur les tâches d'Hugging Face.
\ No newline at end of file
From 30b2fcd38f5ca1e7d1525f57bdc14e67b130b97a Mon Sep 17 00:00:00 2001
From: lbourdois <58078086+lbourdois@users.noreply.github.com>
Date: Thu, 12 Sep 2024 21:19:37 +0200
Subject: [PATCH 08/16] =?UTF-8?q?Delete=20subtitles/fr/tasks=5F08=5F?=
=?UTF-8?q?=F0=9F=A4=97-audio-classification.srt?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit
---
...\360\237\244\227-audio-classification.srt" | 55 -------------------
1 file changed, 55 deletions(-)
delete mode 100644 "subtitles/fr/tasks_08_\360\237\244\227-audio-classification.srt"
diff --git "a/subtitles/fr/tasks_08_\360\237\244\227-audio-classification.srt" "b/subtitles/fr/tasks_08_\360\237\244\227-audio-classification.srt"
deleted file mode 100644
index 0c8b5a47b..000000000
--- "a/subtitles/fr/tasks_08_\360\237\244\227-audio-classification.srt"
+++ /dev/null
@@ -1,55 +0,0 @@
-1
-00:00:02,640 --> 00:00:07,200
-Bienvenue dans la série d'Hugging Face sur les tâches ! Dans cette vidéo, nous allons voir
-
-2
-00:00:07,200 --> 00:00:12,900
-la tâche de classification audio. La classification audio est une tâche qui consiste à attribuer
-
-3
-00:00:12,900 --> 00:00:17,160
-une étiquette à un fichier audio donné. Des exemples sont la détection de la langue du locuteur,
-
-4
-00:00:17,160 --> 00:00:22,980
-la reconnaissance de commandes courtes, comme lecture ou pause, l'identification du locuteur, et bien d'autres choses encore !
-
-5
-00:00:22,980 --> 00:00:27,000
-Examinons rapidement le problème de la reconnaissance des commandes. L'entrée est la
-
-6
-00:00:27,000 --> 00:00:32,220
-forme d'onde audio, qui est une donnée brute pour l'audio. La sortie est une classe, qui peut être une
-
-7
-00:00:32,220 --> 00:00:38,520
-commande telle que "play", "pause", "up", "down", etc. Comme dans les tâches de classification habituelles,
-
-8
-00:00:38,520 --> 00:00:44,880
-les modèles de classification audio sont évalués sur la base de mesures telles que F1, Accuracy, Recall, Precision, etc.
-
-9
-00:00:45,660 --> 00:00:49,860
-Il existe de grands modèles pré-entraînés tels que Wav2Vec2 et HuBERT pouvant être
-
-10
-00:00:49,860 --> 00:00:53,280
-finetunés pour les tâches de classification audio avec la bibliothèque de Transformers.
-
-11
-00:00:53,940 --> 00:00:57,360
-SpeechBrain est une autre bibliothèque facile à utiliser pour la classification audio.
-
-12
-00:00:57,360 --> 00:01:02,760
-Un exemple de benchmark utilisé pour cette tâche est Superb, qui
-
-13
-00:01:02,760 --> 00:01:07,140
-contient des jeux de données pour le repérage de mots clés, la classification des intentions, la reconnaissance des émotions, etc.
-
-14
-00:01:08,100 --> 00:01:12,000
-Pour plus d'informations sur la tâche de classification audio, consultez la page sur les tâches.
\ No newline at end of file
From a9c38db786bdc4d362537f8d3039cfb351e6451f Mon Sep 17 00:00:00 2001
From: lbourdois <58078086+lbourdois@users.noreply.github.com>
Date: Thu, 12 Sep 2024 21:19:54 +0200
Subject: [PATCH 09/16] =?UTF-8?q?Delete=20subtitles/fr/tasks=5F09=5F?=
=?UTF-8?q?=F0=9F=A4=97-automatic-speech-recognition.srt?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit
---
...\244\227-automatic-speech-recognition.srt" | 63 -------------------
1 file changed, 63 deletions(-)
delete mode 100644 "subtitles/fr/tasks_09_\360\237\244\227-automatic-speech-recognition.srt"
diff --git "a/subtitles/fr/tasks_09_\360\237\244\227-automatic-speech-recognition.srt" "b/subtitles/fr/tasks_09_\360\237\244\227-automatic-speech-recognition.srt"
deleted file mode 100644
index a6b449904..000000000
--- "a/subtitles/fr/tasks_09_\360\237\244\227-automatic-speech-recognition.srt"
+++ /dev/null
@@ -1,63 +0,0 @@
-1
-00:00:04,019 --> 00:00:07,740
-Bienvenue dans la série d'Hugging Face sur les tâches ! Dans cette vidéo, nous allons voir
-
-2
-00:00:07,740 --> 00:00:11,940
-la tâche de reconnaissance automatique de la parole aussi connue sous le nom de "Speech to Text".
-
-3
-00:00:11,940 --> 00:00:18,540
-La reconnaissance automatique de la parole, ou ASR, consiste à transcrire un fichier audio donné en texte
-
-4
-00:00:19,320 --> 00:00:24,600
-L'ASR a de nombreuses applications. Pensez à l'utilisation d'interfaces utilisateur vocales ou quand
-
-5
-00:00:24,600 --> 00:00:30,180
-vous voyez des sous-titres générés automatiquement sur YouTube. La mesure la plus courante est le taux d'erreurs de mots,
-
-6
-00:00:30,180 --> 00:00:34,560
-ou WER (Word Error Rate), qui indique les mots qui ont été prédits à tort en déterminant
-
-7
-00:00:34,560 --> 00:00:39,300
-s'ils doivent être supprimés, remplacés ou ajoutés. Plus la valeur est faible, meilleure est la performance !
-
-8
-00:00:40,440 --> 00:00:43,560
-Comment résoudre ce problème ? Les modèles pré-entraînés tels que
-
-9
-00:00:43,560 --> 00:00:48,300
-comme Wav2Vec2 et HuBERT peuvent être finetunés pour la reconnaissance vocale avec la bibliothèque Transformers.
-
-10
-00:00:49,560 --> 00:00:54,240
-Il existe de nombreux jeux de données pour cette tâche. Librispeech est l'un des jeux de données les plus populaires pour l'anglais.
-
-11
-00:00:54,240 --> 00:00:59,220
-Mais si vous voulez un jeu de données multilingue, Common Voice et Vox Populi sont des options plus courantes.
-
-12
-00:00:59,220 --> 00:01:05,700
-Mais ne vous inquiétez pas, vous pouvez accéder à plus de 500 modèles ASR sur le Hub pour plus de 128 langues.
-
-13
-00:01:06,660 --> 00:01:10,560
-Pour savoir comment finetuner un modèle pour ASR, nous vous suggérons de consulter notre blog,
-
-14
-00:01:10,560 --> 00:01:14,700
-où nous avons des articles montrant comment finetuner Wav2Vec2 pour différentes langues.
-
-15
-00:01:15,600 --> 00:01:17,760
-Pour plus d'informations sur le système de reconnaissance vocale automatique
-
-16
-00:01:17,760 --> 00:01:20,040
-vous pouvez consulter la page sur les tâches.
\ No newline at end of file
From e15cc4106e6624e762f796ca17625a53dcddf824 Mon Sep 17 00:00:00 2001
From: lbourdois <58078086+lbourdois@users.noreply.github.com>
Date: Thu, 12 Sep 2024 21:20:09 +0200
Subject: [PATCH 10/16] =?UTF-8?q?Delete=20subtitles/fr/tasks=5F10=5F?=
=?UTF-8?q?=F0=9F=A4=97-text-classification.srt?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit
---
..._\360\237\244\227-text-classification.srt" | 91 -------------------
1 file changed, 91 deletions(-)
delete mode 100644 "subtitles/fr/tasks_10_\360\237\244\227-text-classification.srt"
diff --git "a/subtitles/fr/tasks_10_\360\237\244\227-text-classification.srt" "b/subtitles/fr/tasks_10_\360\237\244\227-text-classification.srt"
deleted file mode 100644
index a1fa101eb..000000000
--- "a/subtitles/fr/tasks_10_\360\237\244\227-text-classification.srt"
+++ /dev/null
@@ -1,91 +0,0 @@
-1
-00:00:00,840 --> 00:00:06,420
-Bienvenue dans la série d'Hugging Face sur les tâches ! Dans cette vidéo, nous allons nous pencher sur la classification de texte.
-
-2
-00:00:08,940 --> 00:00:12,180
-Dans la classification de texte, les modèles reçoivent un texte
-
-3
-00:00:12,180 --> 00:00:16,500
-en entrée et renvoient des étiquettes de classe et leurs probabilités associées.
-
-4
-00:00:19,740 --> 00:00:23,220
-Il existe de nombreuses variantes de cette tâche qui vous permettent d'analyser les sentiments,
-
-5
-00:00:23,220 --> 00:00:29,520
-d'évaluer l'exactitude grammaticale, de déterminer si une question est une paraphrase d'une autre ou
-
-6
-00:00:29,520 --> 00:00:35,400
-déterminer si une affirmation est correcte au regard d'un texte donné. Nous ne les aborderons pas tous dans
-
-7
-00:00:35,400 --> 00:00:40,020
-Vous pouvez consulter la page sur la tâche de classification de textes pour plus de détails.
-
-8
-00:00:43,020 --> 00:00:47,340
-L'analyse des sentiments consiste à déterminer le sentiment d'un texte donné.
-
-9
-00:00:48,300 --> 00:00:53,640
-Ce modèle reçoit un texte et renvoie la polarité ou l'émotion qu'il contient.
-
-10
-00:00:56,340 --> 00:01:03,120
-Une autre variante est l'inférence en langage naturel. Les modèles d'inférence en langage naturel prennent une prémisse et une hypothèse et renvoient
-
-11
-00:01:03,120 --> 00:01:11,160
-une étiquette. Si l'hypothèse est vraie le modèle de NLI renvoie "entailment", si l'hypothèse est fausse,
-
-12
-00:01:11,160 --> 00:01:15,900
-il renvoie "contradiction" ou s'il n'y a pas de relation il renvoie "neutral".
-
-13
-00:01:19,140 --> 00:01:23,460
-Les modèles de question de NLI prennent un texte et une question et renvoient une implication.
-
-14
-00:01:24,000 --> 00:01:29,280
-si la réponse à la question peut être trouvée dans un texte, et ne renvoient pas d'implication dans le cas contraire.
-
-15
-00:01:30,000 --> 00:01:34,200
-Ce modèle peut être utilisé pour modéliser les problèmes de recherche d'information.
-
-16
-00:01:37,500 --> 00:01:45,060
-GLUE est un benchmark utilisé pour mesurer les performances des modèles de NLP sur 10 tâches de classification de texte différents.
-
-17
-00:01:45,060 --> 00:01:50,280
-Ces jeux de données sont également utiles pour finetuner les modèles de classification de texte !
-
-18
-00:01:52,620 --> 00:01:56,040
-Les modèles de classification de texte sont évalués en fonction de leur précision,
-
-19
-00:01:56,040 --> 00:02:01,200
-et du score F1. Les métriques sont calculées pour chacune des étiquettes de classe prédites pour
-
-20
-00:02:01,200 --> 00:02:05,700
-les textes et la moyenne est utilisée pour mesurer la performance globale du modèle.
-
-21
-00:02:08,820 --> 00:02:14,160
-Dans un exemple de cas d'utilisation, vous pouvez classer les commentaires de vos clients à partir du produit
-
-22
-00:02:14,160 --> 00:02:19,560
-ou des tweets à l'aide de modèles d'analyse des sentiments afin de prendre de meilleures décisions commerciales.
-
-23
-00:02:22,740 --> 00:02:26,940
-Pour plus d'informations sur la classification de textes, consultez la page consacrée aux tâches.
\ No newline at end of file
From cad9e576f48ad69559db17e626b52a57f6b5362f Mon Sep 17 00:00:00 2001
From: lbourdois <58078086+lbourdois@users.noreply.github.com>
Date: Thu, 12 Sep 2024 21:20:28 +0200
Subject: [PATCH 11/16] =?UTF-8?q?Delete=20subtitles/fr/tasks=5F11=5F?=
=?UTF-8?q?=F0=9F=A4=97-image-segmentation.srt?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit
---
...1_\360\237\244\227-image-segmentation.srt" | 55 -------------------
1 file changed, 55 deletions(-)
delete mode 100644 "subtitles/fr/tasks_11_\360\237\244\227-image-segmentation.srt"
diff --git "a/subtitles/fr/tasks_11_\360\237\244\227-image-segmentation.srt" "b/subtitles/fr/tasks_11_\360\237\244\227-image-segmentation.srt"
deleted file mode 100644
index 9ce93520d..000000000
--- "a/subtitles/fr/tasks_11_\360\237\244\227-image-segmentation.srt"
+++ /dev/null
@@ -1,55 +0,0 @@
-1
-00:00:02,000 --> 00:00:03,960
-Bienvenue dans la série d'Hugging Face sur les tâches !
-
-2
-00:00:03,960 --> 00:00:08,340
-Dans cette vidéo, nous allons examiner la tâche de segmentation d'image.
-
-3
-00:00:09,060 --> 00:00:12,780
-La tâche de segmentation d'image divise une image en segments, où
-
-4
-00:00:12,780 --> 00:00:15,840
-chaque pixel de l'image est associé à une étiquette. Cette tâche comporte plusieurs variantes,
-
-5
-00:00:15,840 --> 00:00:19,800
-la segmentation d'instance, la segmentation panoptique et la segmentation sémantique.
-
-6
-00:00:20,760 --> 00:00:24,780
-La segmentation sémantique est la tâche qui consiste à segmenter les parties d'une image qui appartiennent à
-
-7
-00:00:24,780 --> 00:00:29,940
-la même classe. Les modèles de segmentation sémantique attribuent une probabilité de classe à chaque pixel.
-
-8
-00:00:30,900 --> 00:00:36,120
-La segmentation d'instance est la variante de la segmentation d'image dans laquelle chaque objet distinct est
-
-9
-00:00:36,120 --> 00:00:40,980
-segmenté, au lieu d'un segment par classe. La segmentation panoptique segmente l'image
-
-10
-00:00:40,980 --> 00:00:45,720
-à la fois par instance et par classe, elle attribue à chaque pixel une instance distincte de la classe.
-
-11
-00:00:47,100 --> 00:00:50,400
-Les modèles de segmentation sont évalués sur la base du chevauchement entre le masque prédit et les pixels de la classe
-
-12
-00:00:50,400 --> 00:00:53,700
-du masque de la vérité terrain. Le chevauchement est appelé Intersection-sur-Union,
-
-13
-00:00:53,700 --> 00:00:57,840
-et les métriques telles que la précision moyenne sont calculées sur l'intersection par rapport à l'union.
-
-14
-00:00:58,560 --> 00:01:01,620
-Pour plus d'informations sur la tâche de segmentation, consultez la page des tâches d'Hugging Face.
\ No newline at end of file
From 7004035c8e9cc04b23406887d148aa0350c1efbb Mon Sep 17 00:00:00 2001
From: lbourdois <58078086+lbourdois@users.noreply.github.com>
Date: Thu, 12 Sep 2024 21:20:38 +0200
Subject: [PATCH 12/16] =?UTF-8?q?Delete=20subtitles/fr/tasks=5F12=5F?=
=?UTF-8?q?=F0=9F=A4=97-audio-to-audio.srt?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit
---
...ks_12_\360\237\244\227-audio-to-audio.srt" | 51 -------------------
1 file changed, 51 deletions(-)
delete mode 100644 "subtitles/fr/tasks_12_\360\237\244\227-audio-to-audio.srt"
diff --git "a/subtitles/fr/tasks_12_\360\237\244\227-audio-to-audio.srt" "b/subtitles/fr/tasks_12_\360\237\244\227-audio-to-audio.srt"
deleted file mode 100644
index 76411f9a0..000000000
--- "a/subtitles/fr/tasks_12_\360\237\244\227-audio-to-audio.srt"
+++ /dev/null
@@ -1,51 +0,0 @@
-1
-00:00:02,232 --> 00:00:06,000
-Bienvenue dans la série d'Hugging Face sur les tâches !
-
-2
-00:00:06,000 --> 00:00:09,360
-Dans cette vidéo, nous allons nous pencher sur les tâches d'audio à audio.
-
-3
-00:00:09,960 --> 00:00:14,400
-L'audio à audio est une famille de tâches dans lesquelles l'entrée est un fichier audio et la sortie un autre fichier audio.
-
-4
-00:00:15,180 --> 00:00:20,040
-Examinons quelques exemples de tâches. Avec l'amélioration de la parole, vous pouvez avoir un
-
-5
-00:00:20,040 --> 00:00:25,080
-audio avec du bruit et améliorer la qualité de la parole. Mais la conversion audio à audio ne se limite pas à la sortie
-
-6
-00:00:25,080 --> 00:00:30,600
-d'un seul son. Dans la sous-tâche de séparation des sources audio, vous pouvez, à partir d'un fichier audio, isoler les éléments suivants
-
-7
-00:00:30,600 --> 00:00:34,920
-différents sons provenant de sources individuelles. Donc si vous avez un son de plusieurs personnes
-
-8
-00:00:34,920 --> 00:00:38,460
-parlant en même temps, vous pouvez extraire le son de chacune d'entre elles.
-
-9
-00:00:39,180 --> 00:00:42,960
-Il existe différentes métriques proposées pour chacune de ces tâches. Pour l'amélioration de la parole,
-
-10
-00:00:42,960 --> 00:00:47,100
-vous pouvez utiliser des métriques telles que l'évaluation perceptuelle de la qualité de la parole, ou la mesure de la qualité de la parole :
-
-11
-00:00:47,100 --> 00:00:53,580
-PESQ. Et d'autres qui sont très difficiles à prononcer. Des bibliothèques telles que SpeechBrain et Asteroid permettent de
-
-12
-00:00:53,580 --> 00:00:57,360
-d'entraîner vos modèles et de les partager facilement sur le Hub en seulement quelques lignes de code.
-
-13
-00:00:58,380 --> 00:01:02,520
-Pour plus d'informations sur la tâche d'audio à audio, cconsultez la page consacrée aux tâches.
\ No newline at end of file
From 33f255638e425090ea0682802b25c01d50d40a03 Mon Sep 17 00:00:00 2001
From: lbourdois <58078086+lbourdois@users.noreply.github.com>
Date: Thu, 12 Sep 2024 21:20:51 +0200
Subject: [PATCH 13/16] =?UTF-8?q?Delete=20subtitles/fr/tasks=5F13=5F?=
=?UTF-8?q?=F0=9F=A4=97-sentence-similarity.srt?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit
---
..._\360\237\244\227-sentence-similarity.srt" | 75 -------------------
1 file changed, 75 deletions(-)
delete mode 100644 "subtitles/fr/tasks_13_\360\237\244\227-sentence-similarity.srt"
diff --git "a/subtitles/fr/tasks_13_\360\237\244\227-sentence-similarity.srt" "b/subtitles/fr/tasks_13_\360\237\244\227-sentence-similarity.srt"
deleted file mode 100644
index a2dbeeda1..000000000
--- "a/subtitles/fr/tasks_13_\360\237\244\227-sentence-similarity.srt"
+++ /dev/null
@@ -1,75 +0,0 @@
-1
-00:00:03,780 --> 00:00:08,760
-Bienvenue dans la série d'Hugging Face sur les tâches ! Dans cette vidéo, nous allons nous pencher sur la similarité de phrases.
-
-2
-00:00:09,420 --> 00:00:14,760
-Dans cette tâche, l'objectif est de déterminer le degré de similitude de différentes phrases. Dans cet exemple,
-
-3
-00:00:14,760 --> 00:00:19,020
-nous comparons une phrase source avec d'autres pour trouver celle qui est la plus similaire en termes de sens,
-
-4
-00:00:19,020 --> 00:00:21,960
-ce que l'on appelle la similarité sémantique textuelle.
-
-5
-00:00:22,860 --> 00:00:27,960
-Il existe d'autres sous-tâches telles que le classement de passages et le clustering qui exploitent la similarité des phrases.
-
-6
-00:00:28,860 --> 00:00:33,300
-Pour ce faire, on représente généralement chaque phrase sous la forme d'un vecteur (également appelé
-
-7
-00:00:33,300 --> 00:00:37,980
-enchâssement), qui est une liste de nombres, puis en comparant les vecteurs.
-
-8
-00:00:39,180 --> 00:00:44,160
-Cela peut s'avérer extrêmement puissant pour des tâches telles que la recherche sémantique, dans laquelle vous souhaitez
-
-9
-00:00:44,160 --> 00:00:48,180
-comprendre le contenu d'une requête de recherche en trouvant celle qui est la plus proche dans votre jeu de données.
-
-10
-00:00:49,140 --> 00:00:54,120
-Certaines métriques courantes utilisées pour cette tâche sont la similarité cosinus, le rang réciproque moyen et la correlation
-
-11
-00:00:54,120 --> 00:00:59,280
-de rangs. Ces métriques calculent essentiellement la similarité entre les vecteurs des textes d'entrée.
-
-12
-00:01:00,420 --> 00:01:06,180
-Il existe plusieurs jeux de données que nous pouvons utiliser pour chaque variante, le classement de passages utilise par exemple MSMARCO.
-
-13
-00:01:06,900 --> 00:01:09,840
-Alors que la similarité sémantique textuelle a son propre jeu de données
-
-14
-00:01:09,840 --> 00:01:12,480
-appelé "Semantic Textual Similarity Benchmark".
-
-15
-00:01:13,800 --> 00:01:17,460
-Vous pouvez utiliser des modèles de similarité de phrases pour les systèmes de recherche d'informations.
-
-16
-00:01:18,180 --> 00:01:23,160
-Si cela vous semble intéressant, Sentence Transformers est la bibliothèque à consulter, vous permettant
-
-17
-00:01:23,160 --> 00:01:28,800
-de créer des enchâssements de texte et même d'images. Il existe plus de 200 modèles dans le Hub qui peuvent
-
-18
-00:01:28,800 --> 00:01:32,940
-calculer des enchâssements de phrase, certains d'entre eux résolvant plus de 100 langues.
-
-19
-00:01:34,080 --> 00:01:38,220
-Pour plus d'informations sur la similarité de phrases, consultez la page consacrée aux tâches.
\ No newline at end of file
From 75264a1ee1f1c212a66023ae5d2326aa517241b7 Mon Sep 17 00:00:00 2001
From: lbourdois <58078086+lbourdois@users.noreply.github.com>
Date: Thu, 12 Sep 2024 21:21:03 +0200
Subject: [PATCH 14/16] =?UTF-8?q?Delete=20subtitles/fr/tasks=5F14=5F?=
=?UTF-8?q?=F0=9F=A4=97-text-to-speech.srt?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit
---
...ks_14_\360\237\244\227-text-to-speech.srt" | 43 -------------------
1 file changed, 43 deletions(-)
delete mode 100644 "subtitles/fr/tasks_14_\360\237\244\227-text-to-speech.srt"
diff --git "a/subtitles/fr/tasks_14_\360\237\244\227-text-to-speech.srt" "b/subtitles/fr/tasks_14_\360\237\244\227-text-to-speech.srt"
deleted file mode 100644
index 5add32b64..000000000
--- "a/subtitles/fr/tasks_14_\360\237\244\227-text-to-speech.srt"
+++ /dev/null
@@ -1,43 +0,0 @@
-1
-00:00:03,660 --> 00:00:13,200
-Bienvenue dans la série d'Hugging Face sur les tâches ! Dans cette vidéo, nous allons examiner la tâche de synthèse vocale. Aucune discussion sur les tâches audio ne serait complète
-
-2
-00:00:13,200 --> 00:00:17,520
-sans parler de la synthèse vocale. Dans le cas de la synthèse vocale, la parole naturelle est
-
-3
-00:00:17,520 --> 00:00:23,700
-générée par un modèle à partir d'un texte. Des bibliothèques telles que ESPNet et TensorFlowTTS
-
-4
-00:00:23,700 --> 00:00:28,020
-vous permettent de charger facilement l'un des plus de 100 modèles pré-entraînés par la communauté.
-
-5
-00:00:28,860 --> 00:00:32,340
-Ces modèles peuvent même être étendus à plusieurs locuteurs et à plusieurs langues !
-
-6
-00:00:33,480 --> 00:00:36,900
-Il existe des métriques telles que le Log F0 qui nous permettent d'évaluer les
-
-7
-00:00:36,900 --> 00:00:41,460
-en reflétant les similitudes de contenu. Mais il est très difficile de déterminer la
-
-8
-00:00:41,460 --> 00:00:46,020
-qualité perceptuelle, c'est pourquoi il y a généralement des humains dans la boucle qui effectuent une évaluation qualitative.
-
-9
-00:00:47,100 --> 00:00:49,920
-Vous pouvez l'essayer dès maintenant dans une démonstration sur Spaces. Ou
-
-10
-00:00:49,920 --> 00:00:52,680
-en utilisant les widgets hébergés dans chacun des dépôts de modèles.
-
-11
-00:00:53,400 --> 00:00:56,160
-Pour plus d'informations sur TTS, consultez la page consacrée aux tâches.
\ No newline at end of file
From c847bcfc732e79752e64d982e632baa957dc2f67 Mon Sep 17 00:00:00 2001
From: lbourdois <58078086+lbourdois@users.noreply.github.com>
Date: Fri, 17 Jan 2025 16:57:29 +0100
Subject: [PATCH 15/16] Add chapter 10
---
chapters/fr/chapter10/1.mdx | 26 +++++
chapters/fr/chapter10/2.mdx | 56 +++++++++++
chapters/fr/chapter10/3.mdx | 110 +++++++++++++++++++++
chapters/fr/chapter10/4.mdx | 44 +++++++++
chapters/fr/chapter10/5.mdx | 69 +++++++++++++
chapters/fr/chapter10/6.mdx | 19 ++++
chapters/fr/chapter10/7.mdx | 186 ++++++++++++++++++++++++++++++++++++
7 files changed, 510 insertions(+)
create mode 100644 chapters/fr/chapter10/1.mdx
create mode 100644 chapters/fr/chapter10/2.mdx
create mode 100644 chapters/fr/chapter10/3.mdx
create mode 100644 chapters/fr/chapter10/4.mdx
create mode 100644 chapters/fr/chapter10/5.mdx
create mode 100644 chapters/fr/chapter10/6.mdx
create mode 100644 chapters/fr/chapter10/7.mdx
diff --git a/chapters/fr/chapter10/1.mdx b/chapters/fr/chapter10/1.mdx
new file mode 100644
index 000000000..3720b2ce3
--- /dev/null
+++ b/chapters/fr/chapter10/1.mdx
@@ -0,0 +1,26 @@
+# Introduction à Argilla[[introduction-to-argilla]]
+
+
+
+Dans le chapitre 5, vous avez appris à construire un jeu de données en utilisant la bibliothèque 🤗 Datasets et dans le chapitre 6, vous avez exploré comment finetuner modèles pour certaines tâches courantes de NLP. Dans ce chapitre, vous allez apprendre à utiliser [Argilla](https://argilla.io) pour **annoter et nettoyer des jeux de données** que vous pouvez utiliser pour entraîner et évaluer vos modèles.
+
+La clé pour entraîner des modèles performants est de disposer de données de haute qualité. Bien qu'il existe sur le Hub des jeux de données de qualité que vous pouvez utiliser pour entraîner et évaluer vos modèles, il se peut qu'ils ne soient pas pertinents pour votre application ou votre cas d'utilisation spécifique. Dans ce cas, vous voudrez peut-être construire votre propre jeu de données. Argilla vous aidera à le faire efficacement.
+
+
+
+Avec Argilla, vous pouvez :
+
+- transformer des données non structurées en **données structurées** pour les utiliser dans des tâches de NLP.
+- nettoyer un jeu de données pour passer d'un jeu de données de faible qualité à un jeu de données de **haute qualité**.
+- recueillir des **retours humains** pour les LLM et les modèles multimodaux.
+- inviter des experts à collaborer avec vous dans Argilla, ou crowdsourcer des annotations !
+
+Voici quelques-unes des choses que vous apprendrez dans ce chapitre :
+
+- Comment configurer votre propre instance Argilla.
+- Comment charger un jeu de données et le configurer en fonction de tâches de NLP populaires.
+- Comment utiliser l'interface utilisateur d'Argilla pour annoter votre jeu de données.
+- Comment utiliser votre jeu de données annoté et l'exporter vers le Hub.
\ No newline at end of file
diff --git a/chapters/fr/chapter10/2.mdx b/chapters/fr/chapter10/2.mdx
new file mode 100644
index 000000000..a8d230f00
--- /dev/null
+++ b/chapters/fr/chapter10/2.mdx
@@ -0,0 +1,56 @@
+# Configurez votre instance Argilla[[set-up-your-argilla-instance]]
+
+
+
+Pour commencer à utiliser Argilla, vous devrez d'abord mettre en place votre propre instance. Ensuite, vous devrez installer le SDK Python afin de pouvoir gérer Argilla avec Python.
+
+## Déployer l'interface utilisateur d'Argilla
+
+La façon la plus simple de créer votre instance Argilla est de passer par Hugging Face Spaces. Pour créer votre Space Argilla, suivez simplement [ce formulaire](https://huggingface.co/new-space?template=argilla%2Fargilla-template-space). Si vous avez besoin de plus de conseils, consultez la page [« Argilla quickstart »](https://docs.argilla.io/latest/getting_started/quickstart/).
+
+
+>[!WARNING]
+> ⚠️ Vous pouvez activer le **stockage persistant** pour que les données ne soient pas perdues si l'espace est interrompu ou redémarré.
+> Vous pouvez le faire à partir des paramètres de votre Space.
+
+Une fois qu'Argilla est opérationnel, vous pouvez vous connecter avec vos identifiants.
+
+## Install and connect the Python SDK
+
+Vous pouvez maintenant aller dans votre environnement Python ou votre notebook et installer la bibliothèque argilla :
+`!pip install argilla`
+
+Connectons-nous à notre instance Argilla. Pour ce faire, vous aurez besoin des informations suivantes :
+
+- **Votre URL API** : Il s'agit de l'URL où Argilla s'exécute. Si vous utilisez un Space, vous pouvez ouvrir le Space, cliquer sur les trois points dans le coin supérieur droit, puis « Embed this Space » et copier l'**URL directe**. Cela devrait ressembler à `https://..hf.space`.
+- **Votre clé API** : Pour obtenir votre clé, connectez-vous à votre instance Argilla et allez dans « My Settings », puis copiez la clé API.
+- **Votre token HF** : Si votre Space est privé, vous aurez besoin d'un *Access Token* dans votre compte Hugging Face Hub avec des permissions d'écriture.
+
+```python
+import argilla as rg
+
+HF_TOKEN = "..." # uniquement pour les spaces privés
+
+client = rg.Argilla(
+ api_url="...",
+ api_key="...",
+ headers={"Authorization": f"Bearer {HF_TOKEN}"}, # uniquement pour les spaces privés
+)
+```
+
+Pour vérifier que tout fonctionne correctement, nous allons appeler `me`. Cela devrait nous renvoyer notre utilisateur :
+
+```python
+client.me
+```
+
+Si cela fonctionne, votre instance Argilla est opérationnelle et vous y êtes connecté ! Félicitations !
+
+Nous pouvons maintenant commencer à charger notre premier jeu de données dans Argilla.
\ No newline at end of file
diff --git a/chapters/fr/chapter10/3.mdx b/chapters/fr/chapter10/3.mdx
new file mode 100644
index 000000000..04211d6bc
--- /dev/null
+++ b/chapters/fr/chapter10/3.mdx
@@ -0,0 +1,110 @@
+# Chargez votre jeu de données dans Argilla[[load-your-dataset-to-argilla]]
+
+
+
+En fonction de la tâche NLP sur laquelle vous travaillez et du cas d'utilisation/votre application spécifique, vos données et la tâche d'annotation se présenteront différemment. Pour cette partie du cours, nous utiliserons [un jeu de données collectant des actualités](https://huggingface.co/datasets/SetFit/ag_news) pour réaliser deux tâches : de la classification indiquant le thème de chaque texte et de la reconnaissannce d'entités nommées pour identifier les entités mentionnées.
+
+
+
+Il est possible d'importer des jeux de données depuis le Hub en utilisant directement l'interface utilisateur Argilla, mais nous utiliserons le SDK pour apprendre à modifier les données si nécessaire.
+
+## Configurez votre jeu de données
+
+La première étape consiste à se connecter à notre instance Argilla comme nous l'avons fait dans la section précédente :
+
+```python
+import argilla as rg
+
+HF_TOKEN = "..." # uniquement pour les spaces privés
+
+client = rg.Argilla(
+ api_url="...",
+ api_key="...",
+ headers={"Authorization": f"Bearer {HF_TOKEN}"}, # uniquement pour les spaces privés
+)
+```
+
+Nous pouvons maintenant réfléchir aux paramètres de notre jeu de données dans Argilla. Ceux-ci représentent la tâche d'annotation que nous allons effectuer sur nos données. Tout d'abord, nous pouvons charger le jeu de données depuis le Hub et inspecter ses caractéristiques, afin de nous assurer que nous le configurons correctement.
+
+```python
+from datasets import load_dataset
+
+data = load_dataset("SetFit/ag_news", split="train")
+data.features
+```
+
+Voici les caractéristiques de notre jeu de données :
+
+```python out
+{'text': Value(dtype='string', id=None),
+ 'label': Value(dtype='int64', id=None),
+ 'label_text': Value(dtype='string', id=None)}
+```
+
+Il contient un `text` ainsi que des labels pour la tâche de classification. Nous les ajouterons à nos paramètres de jeu de données avec une question `spans` pour les entités nommées :
+
+```python
+settings = rg.Settings(
+ fields=[rg.TextField(name="text")],
+ questions=[
+ rg.LabelQuestion(
+ name="label", title="Classifier le texte :", labels=data.unique("label_text")
+ ),
+ rg.SpanQuestion(
+ name="entities",
+ title="Surligner toutes les entités présentes dans le texte :",
+ labels=["PERSON", "ORG", "LOC", "EVENT"],
+ field="text",
+ ),
+ ],
+)
+```
+
+Voyons un peu plus en détail ce que signifient ces paramètres. Tout d'abord, nous avons défini les **champs**, qui contiennent les informations que nous allons annoter. Dans ce cas, nous n'avons qu'un seul champ et il se présente sous la forme d'un texte, nous avons donc choisi un `TextField`.
+
+Ensuite, nous définissons des **questions** qui représentent les tâches que nous voulons effectuer sur nos données :
+
+- Pour la tâche de classification de texte, nous avons choisi une `LabelQuestion` et nous avons utilisé les valeurs uniques de la colonne `label_text` comme nos labels, pour s'assurer que la question est compatible avec ceux qui existent déjà dans le jeu de données.
+- Pour la tâche de classification de *tokens*, nous aurons besoin d'une `SpanQuestion`. Nous avons défini un ensemble de labels que nous utiliserons pour cette tâche, ainsi que le champ sur lequel nous surlignerons les entités.
+
+Pour en savoir plus sur tous les types de champs et de questions disponibles et sur d'autres paramètres avancés, tels que les métadonnées et les vecteurs, consultez la [documentation](https://docs.argilla.io/latest/how_to_guides/dataset/#define-dataset-settings).
+
+## Charger le jeu de données
+
+Maintenant que nous avons défini quelques paramètres, nous pouvons créer le jeu de données :
+
+```python
+dataset = rg.Dataset(name="ag_news", settings=settings)
+
+dataset.create()
+```
+
+Le jeu de données apparaît maintenant dans notre instance Argilla, mais vous verrez qu'il est vide :
+
+
+
+Nous devons maintenant ajouter les enregistrements que nous allons annoter, c'est-à-dire les lignes de notre jeu de données. Pour ce faire, nous devons simplement saisir les données en tant qu'enregistrements et fournir une correspondance pour les éléments qui n'ont pas le même nom dans les jeux de données du Hub et d'Argilla :
+
+```python
+dataset.records.log(data, mapping={"label_text": "label"})
+```
+
+Dans notre correspondance, nous avons spécifié que la colonne `label_text` dans le jeu de données devrait être associée à la question avec le nom `label`. De cette façon, nous utiliserons les étiquettes existantes dans le jeu de données comme pré-annotations afin de pouvoir annoter plus rapidement.
+
+Pendant que les enregistrements continuent à être consignés, vous pouvez déjà commencer à travailler avec votre jeu de données dans l'interface utilisateur d'Argilla. A ce stade, cela devrait ressembler à ceci :
+
+
+
+Notre jeu de données est maintenant prêt à être annoté !
\ No newline at end of file
diff --git a/chapters/fr/chapter10/4.mdx b/chapters/fr/chapter10/4.mdx
new file mode 100644
index 000000000..cb41d356b
--- /dev/null
+++ b/chapters/fr/chapter10/4.mdx
@@ -0,0 +1,44 @@
+# Annoter votre jeu de données[[annotate-your-dataset]]
+
+
+
+Maintenant, il est temps de commencer à travailler à partir de l'interface utilisateur d'Argilla pour annoter notre jeu de données.
+
+## Alignez votre équipe sur les règles d'annotation à respecter
+
+Avant de commencer à annoter votre jeu de données, il est toujours bon de rédiger quelques lignes directrices, surtout si vous travaillez en équipe. Cela vous aidera à vous aligner sur la tâche et l'utilisation des différentes étiquettes, et à résoudre les questions ou les conflits lorsqu'ils surviennent.
+
+Dans Argilla, vous pouvez aller sur la page des paramètres de votre jeu de données dans l'interface utilisateur et modifier les directives et les descriptions de vos questions pour faciliter l'alignement.
+
+
+
+Si vous souhaitez approfondir la question de la rédaction de bonnes règles, nous vous recommandons de lire [cet article de blog](https://argilla.io/blog/annotation-guidelines-practices) ainsi que les références bibliographiques qui y sont mentionnées.
+
+## Répartir la tâche
+
+Dans la page des paramètres du jeu de données, vous pouvez également modifier les paramètres de distribution du jeu de données. Cela vous permettra d'annoter plus efficacement lorsque vous travaillez en équipe. La valeur par défaut du nombre minimum de réponses soumises est de 1, ce qui signifie que dès qu'un enregistrement a une réponse soumise, il est considéré comme complet et compte dans la progression du traitement de votre jeu de données.
+
+Parfois, vous souhaitez avoir plus d'une réponse soumise par enregistrement. Par exemple, si vous voulez analyser l'accord inter-annotateurs dans votre tâche. Dans ce cas, assurez-vous de changer ce paramètre à un nombre plus élevé, mais toujours inférieur ou égal au nombre total d'annotateurs. Si vous travaillez seul sur la tâche, ce paramètre doit être égal à 1.
+
+## Annoter les enregistrements
+
+>[!TIP]
+>💡 Si vous déployez Argilla dans un Space, tous les membres de l'équipe pourront se connecter en utilisant le Hugging Face OAuth. Sinon, vous devrez peut-être créer des comptes utilisateurs pour eux en suivant [ce guide](https://docs.argilla.io/latest/how_to_guides/user/).
+
+Lorsque vous ouvrirez votre jeu de données, vous vous rendrez compte que la première question est déjà remplie avec quelques étiquettes suggérées. C'est parce que dans la section précédente nous avons associé notre question appelée `label` à la colonne `label_text` dans le jeu de données, de sorte qu'il nous suffit de revoir et de corriger les étiquettes déjà existantes :
+
+
+
+Pour la classification de *tokens*, nous devrons ajouter toutes les étiquettes manuellement, car nous n'avons pas inclus de suggestions. Voici à quoi cela pourrait ressembler après l'ajout des annotations :
+
+
+
+Au fur et à mesure que vous parcourez les différents dossiers, vous pouvez entreprendre différentes actions :
+- soumettre vos réponses, une fois que vous avez terminé l'enregistrement.
+- les sauvegarder comme brouillon, au cas où vous voudriez y revenir plus tard.
+- les écarter, si l'enregistrement ne doit pas faire partie du jeu de données ou si vous ne voulez pas y répondre.
+
+Dans la section suivante, vous apprendrez comment exporter et utiliser ces annotations.
\ No newline at end of file
diff --git a/chapters/fr/chapter10/5.mdx b/chapters/fr/chapter10/5.mdx
new file mode 100644
index 000000000..5d730f696
--- /dev/null
+++ b/chapters/fr/chapter10/5.mdx
@@ -0,0 +1,69 @@
+# Utilisez votre jeu de données annoté[[use-your-annotated-dataset]]
+
+
+
+Nous allons maintenant apprendre à exporter et à utiliser les données annotées que nous avons dans Argilla.
+
+## Charger le jeu de données
+
+Tout d'abord, nous devons nous assurer que nous sommes connectés à notre instance Argilla comme dans les étapes précédentes :
+
+```python
+import argilla as rg
+
+HF_TOKEN = "..." # uniquement pour les spaces privés
+
+client = rg.Argilla(
+ api_url="...",
+ api_key="...",
+ headers={"Authorization": f"Bearer {HF_TOKEN}"}, # uniquement pour les spaces privés
+)
+```
+
+Nous allons maintenant charger le jeu de données avec lequel nous allons travailler :
+
+```python
+dataset = client.datasets(name="ag_news")
+```
+
+Charger le jeu de données et appeler ses enregistrements avec `dataset.records` est suffisant pour commencer. Cependant, nous allons également apprendre à effectuer quelques opérations optionnelles, comme filtrer les enregistrements et exporter votre jeu de données vers le Hub d'Hugging Face.
+
+## Filtrer le jeu de données
+
+Il arrive que l'on ne veuille utiliser que les enregistrements qui ont été effectués. Nous allons donc commencer par filtrer les enregistrements de notre jeu de données en fonction de leur statut :
+
+```python
+status_filter = rg.Query(filter=rg.Filter([("status", "==", "completed")]))
+
+filtered_records = dataset.records(status_filter)
+```
+
+>[!TIP]
+>⚠️ Notez que les enregistrements avec le statut `completed` (c'est à dire les enregistrements qui atteignent le minimum de réponses soumises configuré dans les paramètres de distribution des tâches) peuvent avoir plus d'une réponse et que chaque réponse peut avoir n'importe quel statut parmi `submitted`, `draft` ou `discarded`.
+
+Pour en savoir plus sur le requêtage et le filtrage des enregistrements, consultez la [documentation](https://docs.argilla.io/latest/how_to_guides/query/).
+
+## Exportation vers le Hub
+
+Nous pouvons maintenant exporter nos annotations vers le Hub d'Hugging Face, afin de pouvoir les partager avec d'autres personnes. Pour ce faire, nous devrons convertir les enregistrements en un objet Dataset puis le pousser vers le Hub :
+
+```python
+filtered_records.to_datasets().push_to_hub("argilla/ag_news_annotated")
+```
+
+Il est également possible d'exporter directement le jeu de données Argilla complet (y compris les enregistrements en attente) de la manière suivante :
+
+```python
+dataset.to_hub(repo_id="argilla/ag_news_annotated")
+```
+
+C'est un choix intéressant au cas où d'autres personnes voudraient ouvrir le jeu de données dans leurs instances Argilla, car les paramètres sont automatiquement sauvegardés et ils peuvent simplement importer le jeu de données complet en utilisant une seule ligne de code :
+
+```python
+dataset = rg.Dataset.from_hub(repo_id="argilla/ag_news_annotated")
+```
\ No newline at end of file
diff --git a/chapters/fr/chapter10/6.mdx b/chapters/fr/chapter10/6.mdx
new file mode 100644
index 000000000..9f9ca28dc
--- /dev/null
+++ b/chapters/fr/chapter10/6.mdx
@@ -0,0 +1,19 @@
+# Argilla, coché ![[argilla-check]]
+
+
+
+C'est tout ! Félicitations ! 👏
+
+Dans ce chapitre, vous avez appris les étapes de base pour :
+- configurer Argilla.
+- annoter pour améliorer la qualité de votre jeu de données.
+- adapter un jeu de données existant et le réutiliser pour une tâche de NLP différente.
+- partager votre jeu de données annoté avec la communauté dans le Hub d'Hugging Face.
+
+## Que faire ensuite ?
+- Consultez d'autres tutoriels étape par étape pour d'autres tâches populaires de NLP dans la [page des tutoriels](https://docs.argilla.io/latest/tutorials/).
+- Vous pouvez également explorer d'autres exemples de jeux de données dans cette [démo](https://demo.argilla.io/sign-in?auth=ZGVtbzoxMjM0NTY3OA==).
+- Si vous souhaitez continuer à en apprendre davantage sur Argilla et ses fonctionnalités avancées, consultez la [documentation](https://docs.argilla.io/latest/).
\ No newline at end of file
diff --git a/chapters/fr/chapter10/7.mdx b/chapters/fr/chapter10/7.mdx
new file mode 100644
index 000000000..bb02385e9
--- /dev/null
+++ b/chapters/fr/chapter10/7.mdx
@@ -0,0 +1,186 @@
+
+
+# Quiz de fin de chapitre[[end-of-chapter-quiz]]
+
+
+
+Testons ce que nous avons appris dans ce chapitre !
+
+### 1. A quoi peut servir Argilla ?
+
+
+
+### 2. Argilla fonctionne UNIQUEMENT dans les Spaces d'Hugging Face et avec 🤗 Datasets.
+
+
+
+### 3. Vous avez besoin d'un token Hugging Face pour connecter le SDK Python à votre serveur Argilla.
+
+
+
+### 4. Que sont les **champs** dans Argilla ? Combien de champs pouvez-vous utiliser ?
+
+
+
+### 5. Quel est le meilleur type de question pour une tâche de classification de tokens ?
+
+
+
+### 6. À quoi sert le bouton « Save as draft » ?
+
+
+### 7. Argilla ne propose pas automatiquement des étiquettes suggérées, vous devez fournir ces données vous-même.
+
+
+
+### 8. Sélectionnez toutes les étapes nécessaires pour exporter un jeu de données Argilla dans son intégralité vers le Hub :
+
+client= rg.Argilla(api_url='...', api_key='...')",
+ explain: "Oui, pour interagir avec votre serveur, vous devez d'abord l'instancier.",
+ correct: true
+ },
+ {
+ text: "Importer le jeu de données depuis le Hub : dataset = rg.Dataset.from_hub(repo_id='argilla/ag_news_annotated')
",
+ explain: "Non. Il s'agit d'importer un jeu de données du Hub dans votre instance Argilla.",
+ },
+ {
+ text: "Charger le jeu de données : dataset = client.datasets(name='my_dataset')
",
+ explain: "Oui, vous en aurez besoin pour la suite des opérations.",
+ correct: true
+ },
+ {
+ text: "Convertir le jeu de données Argilla en un jeu de données Datasets : dataset = dataset.to_datasets()
",
+ explain: "Ceci n'est pas nécessaire si vous exportez le jeu de données complet. Argilla s'en chargera pour vous. Cependant, vous pouvez en avoir besoin si vous travaillez avec un sous-ensemble d'enregistrements."
+ },
+ {
+ text: "Utiliser la méthode to_hub pour exporter le jeu de données : dataset.to_hub(repo_id='my_username/dataset_name')
",
+ explain: "Ceci poussera le jeu de données vers l'identifiant du repo indiqué, et créera un nouveau repo s'il n'existe pas.",
+ correct: true
+ },
+ ]}
+/>
From 563faadaf8f1932f92a816d8fd19f3a2db7a1f22 Mon Sep 17 00:00:00 2001
From: lbourdois <58078086+lbourdois@users.noreply.github.com>
Date: Fri, 17 Jan 2025 17:01:02 +0100
Subject: [PATCH 16/16] Update _toctree.yml
---
chapters/fr/_toctree.yml | 21 ++++++++++++++++++++-
1 file changed, 20 insertions(+), 1 deletion(-)
diff --git a/chapters/fr/_toctree.yml b/chapters/fr/_toctree.yml
index 58c4e9544..70d470cf3 100644
--- a/chapters/fr/_toctree.yml
+++ b/chapters/fr/_toctree.yml
@@ -168,7 +168,6 @@
quiz: 8
- title: 9. Construire et partager des démos
- new: true
subtitle: J'ai entraîné un modèle, mais comment puis-je le montrer ?
sections:
- local: chapter9/1
@@ -191,6 +190,26 @@
title: Quiz de fin de chapitre
quiz: 9
+- title: 10. Obtenir des jeux de données de grande qualité
+ new: true
+ subtitle: Comment utiliser Argilla pour créer des jeux de données exceptionnels ?
+ sections:
+ - local: chapter10/1
+ title: Introduction à Argilla
+ - local: chapter10/2
+ title: Configurez votre instance Argilla
+ - local: chapter10/3
+ title: Chargez votre jeu de données dans Argilla
+ - local: chapter10/4
+ title: Annoter votre jeu de données
+ - local: chapter10/5
+ title: Utilisez votre jeu de données annoté
+ - local: chapter10/6
+ title: Argilla, coché !
+ - local: chapter10/7
+ title: Quiz de fin de chapitre
+ quiz: 10
+
- title: Evènements liés au cours
sections:
- local: events/1