-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathdvc.yaml
127 lines (126 loc) · 5.46 KB
/
dvc.yaml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
vars:
- videos:
- title: "Lyon Data Science - Meetup #3"
url: https://www.youtube.com/watch?v=ZwMZI-3gAus
- title: "Lyon Data Science : Présentation Amazon WS et prédiction RedShift et ML"
url: https://www.youtube.com/watch?v=JksDTeEvlK8
- title: "Lyon Data Science : Les ressources indispensables pour débuter en Big Data - Machine Learning !"
url: https://www.youtube.com/watch?v=LnmoOvuu-Ek
- title: "Lyon Data Science Open Street Map 24-10-2017"
url: https://www.youtube.com/watch?v=3rnex4E3-sY
- title: "Lyon Data Science La détection de fraude"
url: https://www.youtube.com/watch?v=H0DQocQMSFU
- title: "Lyon Data Science : Place de R et Python dans les formations en Data Science"
url: https://www.youtube.com/watch?v=la9J4UpIgeQ
- title: "Lyon Data Science : Milou est à Tintin ce que Rantanplan est à Lucky Luke - NLP & Word Embeddings"
url: https://www.youtube.com/watch?v=hk5Qz2l4a7Y
- title: "Lyon Data Science : Introduction au Machine Learning avec Spark 2.x et Scala"
url: https://www.youtube.com/watch?v=H9z6-tqswws
- title: "Lyon Data Science : Data Science en production avec R : quels enjeux ? Quelles solutions?"
url: https://www.youtube.com/watch?v=rjQ1CcHEEF4
- title: "Lyon Data Science : AutoML avec R: le tuning de modèles pour paresseux"
url: https://www.youtube.com/watch?v=65-PmQG_t2g
- title: "Lyon Data Science : 7 conseils pour démarrer avec Spark"
url: https://www.youtube.com/watch?v=8-m461AD5MU
- title: "Lyon Data Science : L'importance de la normalisation en analyse de données"
url: https://www.youtube.com/watch?v=ev7r-FdEpd8
- title: "Lyon Data Science : Présentation de Sagemaker: plateforme ML d'AWS"
url: https://www.youtube.com/watch?v=P0evji1IMVQ
- title: "Lyon Data Science : Quickly build Data Science web apps with Streamlit"
url: https://www.youtube.com/watch?v=iwdHFssqtIM
- title: "Lyon Data Science : What to do before an A|B test? An exploration of offline evaluation methods"
url: https://www.youtube.com/watch?v=hntw-YG2Wuo
- title: "L'Industrialisation des modèles de machine learning via la conteneurisation"
url: https://www.youtube.com/watch?v=yvR5N83c7OU
- title: "Lyon Data Science - Prédiction de classements de courses sportives à partir d’estimations locales"
url: https://www.youtube.com/watch?v=2xMxUjoi2GU
- title: "Lyon Data Science - Machine Learning en production"
url: https://www.youtube.com/watch?v=f93yCPq-VMc
- title: "Efficacité 'réelle' d'un test de catégorisation"
url: https://www.youtube.com/watch?v=Kh8W4hNCIC8
- title: "Lyon Data Science - Enjeux de l'Intelligence Artificielle"
url: https://www.youtube.com/watch?v=_6V201z8vWw
- title: "Recommandation de contenus chez 6play"
url: https://www.youtube.com/watch?v=oU03ZE_vaoU
- title: "Le long parcours d'un cas d'usage applicatif en NLP, de 2013 à 2022"
url: https://www.youtube.com/watch?v=Ki0pKl3TwdU
- title: "Techniques pour améliorer son éligibilité pour travailler dans la data"
url: https://www.youtube.com/watch?v=N-7zRvzRr0I
- title: "Où va la Data Science ?"
url: https://www.youtube.com/watch?v=bONAu-W44b8
- title: "Construire des produits data-driven"
url: https://www.youtube.com/watch?v=ei9MpUgEac0
stages:
get_description_from_youtube:
foreach:
${videos}
do:
cmd: >
python3 src/get_description_from_youtube.py
--input_url "${item.url}"
--output_description_file_path "data/descriptions/${item.title}.txt"
deps:
- src/get_description_from_youtube.py
- data/.initial_dvc_dep.md
outs:
- data/descriptions/${item.title}.txt:
cache: false
get_audio_from_url:
foreach:
${videos}
do:
cmd: >
youtube-dl -x
--audio-format mp3
-o "data/audio/${item.title}.mp3"
"${item.url}"
deps:
- data/.initial_dvc_dep.md
outs:
- data/audio/${item.title}.mp3
transcript_audio:
foreach:
${videos}
do:
cmd: >
whisper
--language French
--output_dir data/transcripts
--output_format txt
"data/audio/${item.title}.mp3"
deps:
- data/audio/${item.title}.mp3
outs:
- data/transcripts/${item.title}.txt:
cache: false
summarize_transcript:
foreach:
${videos}
do:
cmd: >
python3 src/summarize_transcript.py
--input_transcript_file_path "data/transcripts/${item.title}.txt"
--output_summary_file_path "data/summaries/${item.title}.txt"
deps:
- src/summarize_transcript.py
- data/transcripts/${item.title}.txt
outs:
- data/summaries/${item.title}.txt:
cache: false
extract_keywords_from_description_and_summary:
foreach:
${videos}
do:
cmd: >
python3 src/extract_keywords_from_description_and_summary.py
--input_title "${item.title}"
--input_description_file_path "data/descriptions/${item.title}.txt"
--input_summary_file_path "data/summaries/${item.title}.txt"
--output_keywords_file_path "data/keywords/${item.title}.txt"
deps:
- src/extract_keywords_from_description_and_summary.py
- data/descriptions/${item.title}.txt
- data/summaries/${item.title}.txt
outs:
- data/keywords/${item.title}.txt:
cache: false