forked from acl-org/acl-anthology
-
Notifications
You must be signed in to change notification settings - Fork 0
/
2003.jeptalnrecital.xml
720 lines (720 loc) · 78.3 KB
/
2003.jeptalnrecital.xml
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
<?xml version='1.0' encoding='UTF-8'?>
<collection id="2003.jeptalnrecital">
<volume id="long" ingest-date="2021-02-05">
<meta>
<booktitle>Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs</booktitle>
<editor><first>Béatrice</first><last>Daille</last></editor>
<editor><first>Emmanuel</first><last>Morin</last></editor>
<publisher>ATALA</publisher>
<address>Batz-sur-Mer, France</address>
<month>June</month>
<year>2003</year>
</meta>
<frontmatter>
<url hash="cb586c06">2003.jeptalnrecital-long.0</url>
<bibkey>jep-taln-recital-2003-actes</bibkey>
</frontmatter>
<paper id="1">
<title>Quand le <fixed-case>TAL</fixed-case> robuste s’attaque au langage parlé : analyse incrémentale pour la compréhension de la parole spontanée</title>
<author><first>Jean-Yves</first><last>Antoine</last></author>
<author><first>Jérôme</first><last>Goulian</last></author>
<author><first>Jeanne</first><last>Villaneau</last></author>
<pages>25–34</pages>
<abstract>Dans cet article, nous discutons de l’application au langage parlé des techniques d’analyse syntaxique robuste développées pour l’écrit. Nous présentons deux systèmes de compréhension de parole spontané en situation de dialogue homme-machine finalisé, dont les performances montrent la pertinence de ces méthodes pour atteindre une compréhension fine et robuste des énoncés oraux.</abstract>
<url hash="c7e964ef">2003.jeptalnrecital-long.1</url>
<language>fra</language>
<bibkey>antoine-etal-2003-quand</bibkey>
</paper>
<paper id="2">
<title>Etude des critères de désambiguïsation sémantique automatique : résultats sur les cooccurrences</title>
<author><first>Laurent</first><last>Audibert</last></author>
<pages>35–44</pages>
<abstract>Nous présentons dans cet article une étude sur les critères de désambiguïsation sémantique automatique basés sur les cooccurrences. L’algorithme de désambiguïsation utilisé est du type liste de décision, il sélectionne une cooccurrence unique supposée véhiculer l’information la plus fiable dans le contexte ciblé. Cette étude porte sur 60 vocables répartis, de manière égale, en trois classes grammaticales (nom, adjectif et verbe) avec une granularité fine au niveau des sens. Nous commentons les résultats obtenus par chacun des critères évalués de manière indépendante et nous nous intéressons aux particularités qui différencient les trois classes grammaticales étudiées. Cette étude s’appuie sur un corpus français étiqueté sémantiquement dans le cadre du projet SyntSem.</abstract>
<url hash="9f953669">2003.jeptalnrecital-long.2</url>
<language>fra</language>
<bibkey>audibert-2003-etude</bibkey>
</paper>
<paper id="3">
<title>Nouvelle approche de la sélection de vocabulaire pour la détection de thème</title>
<author><first>Armelle</first><last>Brun</last></author>
<author><first>Kamel</first><last>Smaïli</last></author>
<author><first>Jean-Paul</first><last>Haton</last></author>
<pages>45–54</pages>
<abstract>En reconnaissance de la parole, un des moyens d’améliorer les performances des systèmes est de passer par l’adaptation des modèles de langage. Une étape cruciale de ce processus consiste à détecter le thème du document traité et à adapter ensuite le modèle de langage. Dans cet article, nous proposons une nouvelle approche de création des vocabulaires utilisés pour la détection de thème. Cette dernière est fondée sur le développement de vocabulaires spécifiques et caractéristiques des différents thèmes. Nous montrons que cette approche permet non seulement d’améliorer les performances des méthodes, mais exploite également des vocabulaires de taille réduite. De plus, elle permet d’améliorer de façon très significative les performances de méthodes de détection lorsqu’elles sont combinées.</abstract>
<url hash="6a6275aa">2003.jeptalnrecital-long.3</url>
<language>fra</language>
<bibkey>brun-etal-2003-nouvelle</bibkey>
</paper>
<paper id="4">
<title>Classification automatique de textes à partir de leur analyse syntaxico-sémantique</title>
<author><first>Jacques</first><last>Chauché</last></author>
<author><first>Violaine</first><last>Prince</last></author>
<author><first>Simon</first><last>Jaillet</last></author>
<author><first>Maguelonne</first><last>Teisseire</last></author>
<pages>55–64</pages>
<abstract>L’hypothèse soutenue dans cet article est que l’analyse de contenu, quand elle est réalisée par un analyseur syntaxique robuste avec calcul sémantique dans un modèle adéquat, est un outil de classification tout aussi performant que les méthodes statistiques. Pour étudier les possibilités de cette hypothèse en matière de classification, à l’aide de l’analyseur du Français, SYGMART, nous avons réalisé un projet en grandeur réelle avec une société qui propose des sélections d’articles en revue de presse. Cet article présente non seulement les résultats de cette étude (sur 4843 articles finalement sélectionnés), mais aussi cherche à montrer que l’analyse de contenu automatisée, quand elle est possible, est un moyen fiable de produire une catégorisation issue du sens (quand il est calculable), et pas simplement créée à partir d’une reconnaissance de “similarités”de surface.</abstract>
<url hash="7bd9c606">2003.jeptalnrecital-long.4</url>
<language>fra</language>
<bibkey>chauche-etal-2003-classification</bibkey>
</paper>
<paper id="5">
<title>Extraction de couples nom-verbe sémantiquement liés : une technique symbolique automatique</title>
<author><first>Vincent</first><last>Claveau</last></author>
<pages>65–74</pages>
<abstract>Dans le modèle du Lexique génératif (Pustejovsky, 1995), certaines propriétés sémantiques des noms sont exprimées à l’aide de verbes. Les couples nom-verbe ainsi formés présentent un intérêt applicatif notamment en recherche d’information. Leur acquisition sur corpus constitue donc un enjeu, mais la découverte des patrons qui les définissent en contexte est également importante pour la compréhension même du modèle du Lexique génératif. Cet article présente une technique entièrement automatique permettant de répondre à ce double besoin d’extraction sur corpus de couples et de patrons morpho-syntaxiques et sémantiques. Elle combine pour ce faire deux approches d’acquisition— l’approche statistique et l’approche symbolique— en conservant les avantages propres à chacune d’entre elles : robustesse et automatisation des méthodes statistiques, qualité et expressivité des résultats des techniques symboliques.</abstract>
<url hash="6dca8098">2003.jeptalnrecital-long.5</url>
<language>fra</language>
<bibkey>claveau-2003-extraction</bibkey>
</paper>
<paper id="6">
<title>Une plate-forme de conception et d’exploitation d’une grammaire d’arbres adjoints lexicalisés</title>
<author><first>Benoît</first><last>Crabbé</last></author>
<author><first>Bertrand</first><last>Gaiffe</last></author>
<author><first>Azim</first><last>Roussanaly</last></author>
<pages>75–84</pages>
<abstract>Dans cet article, nous présentons un ensemble d’outils de conception et d’exploitation pour des grammaires d’arbres adjoints lexicalisés. Ces outils s’appuient sur une représentation XML des ressources (lexique et grammaire). Dans notre représentation, à chaque arbre de la grammaire est associé un hypertag décrivant les phénomènes linguistiques qu’il recouvre. De ce fait, la liaison avec le lexique se trouve plus compactée et devient plus aisée à maintenir. Enfin, un analyseur permet de valider les grammaires et les lexiques ainsi conçus aussi bien de façon interactive que différée sur des corpus.</abstract>
<url hash="8a61228e">2003.jeptalnrecital-long.6</url>
<language>fra</language>
<bibkey>crabbe-etal-2003-une</bibkey>
</paper>
<paper id="7">
<title>Peut-on trouver la taille de contexte optimale en désambiguïsation sémantique?</title>
<author><first>Éric</first><last>Crestan</last></author>
<author><first>Marc</first><last>El-Bèze</last></author>
<author><first>Claude</first><last>De Loupy</last></author>
<pages>85–94</pages>
<abstract>Dans la tâche de désambiguïsation sémantique, la détermination de la taille optimale de fenêtre de contexte à utiliser, a fait l’objet de plusieurs études. Dans cet article, nous proposons une approche à deux niveaux pour répondre à cette problématique de manière automatique. Trois systèmes concurrents à base d’arbres de classification sémantique sont, dans un premier temps, utilisés pour déterminer les trois sens les plus vraisemblables d’un mot. Ensuite, un système décisionnel tranche entre ces sens au regard d’un contexte plus étendu. Les améliorations constatées lors d’expériences menées sur les données de SENSEVAL-1 et vérifiées sur les données SENSEVAL-2 sont significatives.</abstract>
<url hash="ffafb85e">2003.jeptalnrecital-long.7</url>
<language>fra</language>
<bibkey>crestan-etal-2003-peut</bibkey>
</paper>
<paper id="8">
<title>Représentation sémantique sous-spécifiée pour les conjonctions de subordination</title>
<author><first>Laurence</first><last>Danlos</last></author>
<pages>95–104</pages>
<abstract>Cet article concerne les phrases complexes avec deux conjonctions de subordination. Nous montrerons que de telles phrases peuvent s’interpréter de quatre façons différentes. Il s’agit donc de formes fortement ambiguës pour lesquelles il est opportun d’avoir recours à des représentations sémantiques sous-spécifiées, et c’est ce que nous proposerons.</abstract>
<url hash="f0090923">2003.jeptalnrecital-long.8</url>
<language>fra</language>
<bibkey>danlos-2003-representation</bibkey>
</paper>
<paper id="9">
<title>Confronter des sources de connaissances différentes pour obtenir une réponse plus fiable</title>
<author><first>Gaël</first><last>de Chalendar</last></author>
<author><first>Faïza</first><last>El Kateb</last></author>
<author><first>Olivier</first><last>Ferret</last></author>
<author><first>Brigitte</first><last>Grau</last></author>
<author><first>Martine</first><last>Hurault-Plantet</last></author>
<author><first>Laura</first><last>Monceaux</last></author>
<author><first>Isabelle</first><last>Robba</last></author>
<author><first>Anne</first><last>Vilnat</last></author>
<pages>105–114</pages>
<abstract>La fiabilité des réponses qu’il propose, ou un moyen de l’estimer, est le meilleur atout d’un système de question-réponse. A cette fin, nous avons choisi d’effectuer des recherches dans des ensembles de documents différents et de privilégier des résultats qui sont trouvés dans ces différentes sources. Ainsi, le système QALC travaille à la fois sur une collection finie d’articles de journaux et sur le Web.</abstract>
<url hash="646cb3da">2003.jeptalnrecital-long.9</url>
<language>fra</language>
<bibkey>de-chalendar-etal-2003-confronter</bibkey>
</paper>
<paper id="10">
<title>Apprentissage Automatique de Paraphrases pour l’Amélioration d’un Système de Questions-Réponses</title>
<author><first>Florence</first><last>Duclaye</last></author>
<author><first>Olivier</first><last>Collin</last></author>
<author><first>François</first><last>Yvon</last></author>
<pages>115–124</pages>
<abstract>Dans cet article, nous présentons une méthodologie d’apprentissage faiblement supervisé pour l’extraction automatique de paraphrases à partir du Web. À partir d’un seule exemple de paire (prédicat, arguments), un corpus est progressivement accumulé par sondage duWeb. Les phases de sondage alternent avec des phases de filtrage, durant lesquelles les paraphrases les moins plausibles sont éliminées à l’aide d’une procédure de clustering non supervisée. Ce mécanisme d’apprentissage s’appuie sur un système de Questions-Réponses existant et les paraphrases apprises seront utilisées pour en améliorer le rappel. Nous nous concentrons ici sur le mécanisme d’apprentissage de ce système et en présentons les premiers résultats.</abstract>
<url hash="86abc08d">2003.jeptalnrecital-long.10</url>
<language>fra</language>
<bibkey>duclaye-etal-2003-apprentissage</bibkey>
</paper>
<paper id="11">
<title>La topologie comme interface entre syntaxe et prosodie : un système de génération appliqué au grec moderne</title>
<author><first>Kim</first><last>Gerdes</last></author>
<author><first>Hi-Yon</first><last>Yoo</last></author>
<pages>125–134</pages>
<abstract>Dans cet article, nous développons les modules syntaxique et topologique du modèle Sens- Texte et nous montrons l’utilité de la topologie comme représentation intermédiaire entre les représentations syntaxique et phonologique. Le modèle est implémenté dans un générateur et nous présentons la grammaire du grec moderne dans cette approche.</abstract>
<url hash="9a12b95f">2003.jeptalnrecital-long.11</url>
<language>fra</language>
<bibkey>gerdes-yoo-2003-la</bibkey>
</paper>
<paper id="12">
<title>Contextual Grammars and Dependency Trees</title>
<author><first>Radu</first><last>Gramatovici</last></author>
<author><first>Carlos</first><last>Martín-Vide</last></author>
<pages>135–144</pages>
<abstract>A new variant of structured contextual grammar, which generates dependency trees, is introduced. The new generative model, called dependency contextual grammar, improves both the strong and weak generative power of contextual grammars, while being a potential candidate for the mathematical description of dependency-based syntactic models.</abstract>
<url hash="4cb56ea8">2003.jeptalnrecital-long.12</url>
<bibkey>gramatovici-martin-vide-2003-contextual</bibkey>
</paper>
<paper id="13">
<title>Entre syntaxe et sémantique : Normalisation de la sortie de l’analyse syntaxique en vue de l’amélioration de l’extraction d’information à partir de textes</title>
<author><first>Caroline</first><last>Hagège</last></author>
<author><first>Claude</first><last>Roux</last></author>
<pages>145–154</pages>
<abstract>Cet article présente la normalisation de la sortie d’un analyseur robuste de l’anglais. Nous montrons quels sont les enrichissements que nous avons effectués afin de pouvoir obtenir à la sortie de notre analyseur des relations syntaxiques plus générales que celles que nous offrent habituellement les analyseurs robustes existants. Pour cela nous utilisons non seulement des propriétés syntaxiques, mais nous faisons appel aussi à de l’information de morphologie dérivationnelle. Cette tâche de normalisation est menée à bien grâce à notre analyseur XIP qui intègre tous les traitements allant du texte brut tout venant au texte normalisé. Nous pensons que cette normalisation nous permettra de mener avec plus de succès des tâches d’extraction d’information ou de détection de similarité entre documents.</abstract>
<url hash="1d99c953">2003.jeptalnrecital-long.13</url>
<language>fra</language>
<bibkey>hagege-roux-2003-entre</bibkey>
</paper>
<paper id="14">
<title>L’identification des structures discursives engendrées par les cadres organisationnels</title>
<author><first>Agata</first><last>Jackiewicz</last></author>
<author><first>Jean-Luc</first><last>Minel</last></author>
<pages>155–164</pages>
<abstract>Cet article présente tout d’abord une analyse linguistique des cadres organisationnels et son implémentation informatique. Puis à partir de ce travail, une modélisation généralisable à l’ensemble des cadres de discours est proposée. Enfin, nous discutons du concept d’indicateur proposé dans le cadre théorique de l’exploration contextuelle.</abstract>
<url hash="c39384f1">2003.jeptalnrecital-long.14</url>
<language>fra</language>
<bibkey>jackiewicz-minel-2003-lidentification</bibkey>
</paper>
<paper id="15">
<title>Vers la compréhension automatique de la parole : extraction de concepts par réseaux bayésiens</title>
<author><first>Salma</first><last>Jamoussi</last></author>
<author><first>Kamel</first><last>Smaïli</last></author>
<author><first>Jean-Paul</first><last>Haton</last></author>
<pages>165–174</pages>
<abstract>La compréhension automatique de la parole peut être considérée comme un problème d’association entre deux langages différents. En entrée, la requête exprimée en langage naturel et en sortie, juste avant l’étape d’interprétation, la même requête exprimée en terme de concepts. Un concept représente un sens bien déterminé. Il est défini par un ensemble de mots partageant les mêmes propriétés sémantiques. Dans cet article, nous proposons une méthode à base de réseau bayésien pour l’extraction automatique des concepts ainsi que trois approches différentes pour la représentation vectorielle des mots. Ces représentations aident un réseau bayésien à regrouper les mots, construisant ainsi la liste adéquate des concepts à partir d’un corpus d’apprentissage. Nous conclurons cet article par la description d’une étape de post-traitement au cours de laquelle, nous étiquetons nos requêtes et nous générons les commandes SQL appropriées validant ainsi, notre approche de compréhension.</abstract>
<url hash="22079447">2003.jeptalnrecital-long.15</url>
<language>fra</language>
<bibkey>jamoussi-etal-2003-vers</bibkey>
</paper>
<paper id="16">
<title>Les signes grammaticaux dans l’interface sémantique-syntaxe d’une grammaire d’unification</title>
<author><first>Sylvain</first><last>Kahane</last></author>
<pages>175–184</pages>
<abstract>Cet article présente une grammaire d’unification dans laquelle les morphèmes grammaticaux sont traités similairement aux morphèmes lexicaux!: les deux types de morphèmes sont traités comme des signes à part entière et sont décris par des structures élémentaires qui peuvent s’unifier directement les unes aux autres (ce qui en fait une grammaire de dépendance). Nous illustrerons notre propos par un fragment de l’interface sémantique-syntaxe du français pour le verbe et l’adjectif!: voix, modes, temps, impersonnel et tough-movement.</abstract>
<url hash="6ae32df1">2003.jeptalnrecital-long.16</url>
<language>fra</language>
<bibkey>kahane-2003-les</bibkey>
</paper>
<paper id="17">
<title>Une caractérisation de la pertinence pour les actions de référence</title>
<author><first>Frédéric</first><last>Landragin</last></author>
<pages>185–194</pages>
<abstract>Que ce soit pour la compréhension ou pour la génération d’expressions référentielles, la Théorie de la Pertinence propose un critère cognitif permettant de comparer les pertinences de plusieurs expressions dans un contexte linguistique. Nous voulons ici aller plus loin dans cette voie en proposant une caractérisation précise de ce critère, ainsi que des pistes pour sa quantification. Nous étendons l’analyse à la communication multimodale, et nous montrons comment la perception visuelle, le langage et le geste ostensif interagissent dans la production d’effets contextuels. Nous nous attachons à décrire l’effort de traitement d’une expression multimodale à l’aide de traits. Nous montrons alors comment des comparaisons entre ces traits permettent d’exploiter efficacement le critère de pertinence en communication homme-machine. Nous soulevons quelques points faibles de notre proposition et nous en tirons des perspectives pour une formalisation de la pertinence.</abstract>
<url hash="6e629596">2003.jeptalnrecital-long.17</url>
<language>fra</language>
<bibkey>landragin-2003-une</bibkey>
</paper>
<paper id="18">
<title>De la traduction probabiliste aux mémoires de traduction (ou l’inverse)</title>
<author><first>Philippe</first><last>Langlais</last></author>
<author><first>Michel</first><last>Simard</last></author>
<pages>195–204</pages>
<abstract>En dépit des travaux réalisés cette dernière décennie dans le cadre général de la traduction probabiliste, nous sommes toujours bien loin du jour où un engin de traduction automatique (probabiliste ou pas) sera capable de répondre pleinement aux besoins d’un traducteur professionnel. Dans une étude récente (Langlais, 2002), nous avons montré comment un engin de traduction probabiliste pouvait bénéficier de ressources terminologiques extérieures. Dans cette étude, nous montrons que les techniques de traduction probabiliste peuvent être utilisées pour extraire des informations sous-phrastiques d’une mémoire de traduction. Ces informations peuvent à leur tour s’avérer utiles à un engin de traduction probabiliste. Nous rapportons des résultats sur un corpus de test de taille importante en utilisant la mémoire de traduction d’un concordancier bilingue commercial.</abstract>
<url hash="13ec3903">2003.jeptalnrecital-long.18</url>
<language>fra</language>
<bibkey>langlais-simard-2003-de</bibkey>
</paper>
<paper id="19">
<title>Une analyse des emplois du démonstratif en corpus</title>
<author><first>Hélène</first><last>Manuélian</last></author>
<pages>205–214</pages>
<abstract>Cet article propose une nouvelle classification des utilisations des démonstratifs, une mise en oeuvre de cette classification dans une analyse de corpus et présente les resultats obtenus au terme de cette analyse. La classification proposée est basée sur celles existant dans la littérature et étendues pour permettre la génération de groupes nominaux démonstratifs. L’analyse de corpus montre en particulier que la nature “reclassifiante” du démonstratif lui permet d’assumer deux fonctions (une fonction anaphorique et une fonction de support pour de l’information nouvelle) et qu’il existe des moyens variés de réaliser ces fonctions.</abstract>
<url hash="bfc25c02">2003.jeptalnrecital-long.19</url>
<language>fra</language>
<bibkey>manuelian-2003-une</bibkey>
</paper>
<paper id="20">
<title><fixed-case>MULTI</fixed-case>-<fixed-case>ANALYSE</fixed-case> vers une analyse syntaxique plus fiable</title>
<author><first>Laura</first><last>Monceaux</last></author>
<author><first>Anne</first><last>Vilnat</last></author>
<pages>215–224</pages>
<abstract>Dans cet article, nous proposons de montrer que la combinaison de plusieurs analyses syntaxiques permet d’extraire Panalyse la plus fiable pour une phrase donnée. De plus, chaque information syntaxique sera affectée d’un score de confiance déterminé selon le nombre d’analyseurs syntaxiques la confirmant. Nous verrons que cette approche implique l’étude des différents analyseurs syntaxiques existants ainsi que leur évaluation.</abstract>
<url hash="a4c1a94c">2003.jeptalnrecital-long.20</url>
<language>fra</language>
<bibkey>monceaux-vilnat-2003-multi</bibkey>
</paper>
<paper id="21">
<title>Apprentissage discriminant pour les Grammaires à Substitution d’Arbres</title>
<author><first>Antoine</first><last>Rozenknop</last></author>
<author><first>Jean-Cédric</first><last>Chappelier</last></author>
<author><first>Martin</first><last>Rajman</last></author>
<pages>225–234</pages>
<abstract>Les grammaires stochastiques standards utilisent des modèles probabilistes de nature générative, fondés sur des probabilités de récriture conditionnées par le symbole récrit. Les expériences montrent qu’elles tendent ainsi par nature à pénaliser les dérivations les plus longues pour une meme entrée, ce qui n’est pas forcément un comportement souhaitable, ni en analyse syntaxique, ni en reconnaissance de la parole. Dans cet article, nous proposons une approche probabiliste non-générative du modèle STSG (grammaire stochastique à substitution d’arbres), selon laquelle les probabilités sont conditionnées par les feuilles des arbres syntaxiques plutot que par leur racine, et qui par nature fait appel à un apprentissage discriminant. Plusieurs expériences sur ce modèle sont présentées.</abstract>
<url hash="47642d52">2003.jeptalnrecital-long.21</url>
<language>fra</language>
<bibkey>rozenknop-etal-2003-apprentissage</bibkey>
</paper>
<paper id="22">
<title>Amélioration de liens entre acceptions par fonctions lexicales vectorielles symétriques</title>
<author><first>Didier</first><last>Schwab</last></author>
<author><first>Mathieu</first><last>Lafourcade</last></author>
<author><first>Violaine</first><last>Prince</last></author>
<pages>235–244</pages>
<abstract>Dans le cadre du projet Papillon qui vise à la construction de bases lexicales multilingues par acceptions, nous avons défini des stratégies pour peupler un dictionnaire pivot de liens interlingues à partir d’une base vectorielle monolingue. Il peut y avoir un nombre important de sens par entrée et donc l’identification des acceptions correspondantes peut être erronée. Nous améliorons l’intégrité de la base d’acception grâce à des agents experts dans les fonctions lexicales comme la synonymie, l’antonymie, l’hypéronymie ou l’holonymie. Ces agents sont capable de calculer la pertinence d’une relation sémantique entre deux acceptions par les diverses informations lexicales récoltées et les vecteurs conceptuels. Si une certaine pertinence est au-dessus d’un seuil, ils créent un lien sémantique qui peut être utilisé par d’autres agents chargés par exemple de la désambiguïsation ou du transfert lexical. Les agents vérifiant l’intégrité de la base cherchent les incohérences de la base et en avertissent les lexicographes le cas échéant.</abstract>
<url hash="6c2b9fb0">2003.jeptalnrecital-long.22</url>
<language>fra</language>
<bibkey>schwab-etal-2003-amelioration</bibkey>
</paper>
<paper id="23">
<title><fixed-case>F</fixed-case>rench Amalgam: A machine-learned sentence realization system</title>
<author><first>Martine</first><last>Smets</last></author>
<author><first>Michael</first><last>Gamon</last></author>
<author><first>Simon</first><last>Corston-Oliver</last></author>
<author><first>Eric</first><last>Ringger</last></author>
<pages>245–254</pages>
<abstract>This paper presents the French implementation of Amalgam, a machine-learned sentence realization system. It presents in some detail two of the machine-learned models employed in Amalgam and shows how linguistic intuition and knowledge can be combined with statistical techniques to improve the performance of the models.</abstract>
<url hash="48a6f388">2003.jeptalnrecital-long.23</url>
<bibkey>smets-etal-2003-french-amalgam</bibkey>
</paper>
<paper id="24">
<title>Une grammaire formelle du créole martiniquais pour la génération automatique</title>
<author><first>Pascal</first><last>Vaillant</last></author>
<pages>255–264</pages>
<abstract>Nous présenterons dans cette communication les premiers travaux de modélisation informatique d’une grammaire de la langue créole martiniquaise, en nous inspirant des descriptions fonctionnelles de Damoiseau (1984) ainsi que du manuel de Pinalie & Bernabé (1999). Prenant appui sur des travaux antérieurs en génération de texte (Vaillant, 1997), nous utilisons un formalisme de grammaires d’unification, les grammaires d’adjonction d’arbres (TAG d’après l’acronyme anglais), ainsi qu’une modélisation de catégories lexicales fonctionnelles à base syntaxico-sémantique, pour mettre en oeuvre une grammaire du créole martiniquais utilisable dans une maquette de système de génération automatique. L’un des intérêts principaux de ce système pourrait être son utilisation comme logiciel outil pour l’aide à l’apprentissage du créole en tant que langue seconde.</abstract>
<url hash="2a9c6475">2003.jeptalnrecital-long.24</url>
<language>fra</language>
<bibkey>vaillant-2003-une</bibkey>
</paper>
<paper id="25">
<title>Cartographie lexicale pour la recherche d”information</title>
<author><first>Jean</first><last>Véronis</last></author>
<pages>265–274</pages>
<abstract>Nous décrivons un algorithme, HyperLex, de détermination automatique des différents usages d’un mot dans une base textuelle sans utilisation d’un dictionnaire. Cet algorithme basé sur la détection des composantes de forte densité du graphe des cooccurrences de mots permet, contrairement aux méthodes précédemment proposées (vecteurs de mots), d’isoler des usages très peu fréquents. Il est associé à une technique de représentation graphique permettant à l’utilisateur de naviguer de façon visuelle à travers le lexique et d’explorer les différentes thématiques correspondant aux usages discriminés.</abstract>
<url hash="f5e496b4">2003.jeptalnrecital-long.25</url>
<language>fra</language>
<bibkey>veronis-2003-cartographie</bibkey>
</paper>
<paper id="26">
<title>Application d’algorithmes de classification automatique pour la détection des contenus racistes sur l’<fixed-case>I</fixed-case>nternet</title>
<author><first>Romain</first><last>Vinot</last></author>
<author><first>Natalia</first><last>Grabar</last></author>
<author><first>Mathieu</first><last>Valette</last></author>
<pages>275–284</pages>
<abstract>Le filtrage de contenus illicites sur Internet est une problématique difficile qui est actuellement résolue par des approches à base de listes noires et de mots-clés. Les systèmes de classification textuelle par apprentissage automatique nécessitant peu d’interventions humaines, elles peuvent avantageusement remplacer ou compléter les méthodes précédentes pour faciliter les mises à jour. Ces techniques, traditionnellement utilisées avec des catégories définies par leur sujet (économie ou sport par exemple), sont fondées sur la présence ou l’absence de mots. Nous présentons une évaluation de ces techniques pour le filtrage de contenus racistes. Contrairement aux cas traditionnels, les documents ne doivent pas être catégorisés suivant leur sujet mais suivant le point de vue énoncé (raciste ou antiraciste). Nos résultats montrent que les classifieurs, essentiellement lexicaux, sont néanmoins bien adaptées : plus de 90% des documents sont correctement classés, voir même 99% si l’on accepte une classe de rejet (avec 20% d’exemples non classés).</abstract>
<url hash="8076e56d">2003.jeptalnrecital-long.26</url>
<language>fra</language>
<bibkey>vinot-etal-2003-application</bibkey>
</paper>
<paper id="27">
<title>Apprentissage de relations morphologiques en corpus</title>
<author><first>Pierre</first><last>Zweigenbaum</last></author>
<author><first>Fadila</first><last>Hadouche</last></author>
<author><first>Natalia</first><last>Grabar</last></author>
<pages>285–294</pages>
<abstract>Nous proposons une méthode pour apprendre des relations morphologiques dérivationnelles en corpus. Elle se fonde sur la cooccurrence en corpus de mots formellement proches et un filtrage complémentaire sur la forme des mots dérivés. Elle est mise en oeuvre et expérimentée sur un corpus médical. Les relations obtenues avant filtrage ont une précision moyenne de 75,6 % au 5000è rang (fenêtre de 150 mots). L’examen détaillé des dérivés adjectivaux d’un échantillon de 633 noms du champ de l’anatomie montre une bonne précision de 85–91 % et un rappel modéré de 32–34 %. Nous discutons ces résultats et proposons des pistes pour les compléter.</abstract>
<url hash="3efc0671">2003.jeptalnrecital-long.27</url>
<language>fra</language>
<bibkey>zweigenbaum-etal-2003-apprentissage</bibkey>
</paper>
</volume>
<volume id="poster" ingest-date="2021-02-05">
<meta>
<booktitle>Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Posters</booktitle>
<editor><first>Béatrice</first><last>Daille</last></editor>
<editor><first>Emmanuel</first><last>Morin</last></editor>
<publisher>ATALA</publisher>
<address>Batz-sur-Mer, France</address>
<month>June</month>
<year>2003</year>
</meta>
<frontmatter>
<url hash="a7eadc82">2003.jeptalnrecital-poster.0</url>
<bibkey>jep-taln-recital-2003-actes-de</bibkey>
</frontmatter>
<paper id="1">
<title>Generation of natural responses through syntactic patterns</title>
<author><first>Glenda</first><last>B. Anaya</last></author>
<author><first>Leila</first><last>Kosseim</last></author>
<pages>297–302</pages>
<abstract>The goal of Question-Answering (QA) systems is to find short and factual answers to opendomain questions by searching a large collection of documents. The subject of this research is to formulate complete and natural answer-sentences to questions, given the short answer. The answer-sentences are meant to be self-sufficient; that is, they should contain enough context to be understood without needing the original question. Generating such sentences is important in question-answering as they can be used to enhance existing QA systems to provide answers to the user in a more natural way and to provide a pattern to actually extract the answer from the document collection.</abstract>
<url hash="2b990034">2003.jeptalnrecital-poster.1</url>
<bibkey>b-anaya-kosseim-2003-generation</bibkey>
</paper>
<paper id="2">
<title>Une métagrammaire pour les noms prédicatifs du français</title>
<author><first>Sébastien</first><last>Barrier</last></author>
<author><first>Nicolas</first><last>Barrier</last></author>
<pages>303–308</pages>
<abstract>La grammaire FTAG du français a vu ces dernières années ses données s’accroître très fortement. D’abord écrits manuellement, les arbres qui la composent, ont ensuite été générés semi-automatiquement grâce à une Métagrammaire, développée tout spécialement. Après la description des verbes en 1999, puis celle des adjectifs en 2001-2002, c’est maintenant au tour des verbes supports et des noms prédicatifs de venir enrichir les descriptions syntaxiques de la grammaire. Après un rappel linguistique et technique des notions de verbe support et de métagrammaire, cet article présente les choix qui ont été entrepris en vue de la description de ces nouvelles données.</abstract>
<url hash="a152c7e0">2003.jeptalnrecital-poster.2</url>
<language>fra</language>
<bibkey>barrier-barrier-2003-une</bibkey>
</paper>
<paper id="3">
<title>Remarques et perspectives sur les langages de prégroupe d’ordre 1/2</title>
<author><first>Denis</first><last>Béchet</last></author>
<author><first>Annie</first><last>Foret</last></author>
<pages>309–314</pages>
<abstract>Cet article traite de l’acquisition automatique des grammaires de Lambek, utilisées pour la modélisation syntaxique des langues. Récemment, des algorithmes ont été proposés dans le modèle d’apprentissage de Gold, pour certaines classes de grammaires catégorielles. En revenche, les grammaires de Lambek rigides ou k-valuées ne sont pas apprenables à partir des chaînes. Nous nous intéressons ici au cas des grammaires de prégroupe. Nous montrons que la classe des grammaires de prégroupe n’est pas apprenable à partir des chaînes, même si on limite fortement l’ordre des types (ordre 1/2) ; notre preuve revient à construire un point limite pour cette classe.</abstract>
<url hash="f64c26c6">2003.jeptalnrecital-poster.3</url>
<language>fra</language>
<bibkey>bechet-foret-2003-remarques</bibkey>
</paper>
<paper id="4">
<title>Indexation discursive pour la navigation intradocumentaire : cadres temporels et spatiaux dans l’information géographique</title>
<author><first>Frédérik</first><last>Bilhaut</last></author>
<author><first>Lydia-Mai</first><last>Ho-Dac</last></author>
<author><first>Andrée</first><last>Borillo</last></author>
<author><first>Thierry</first><last>Charnois</last></author>
<author><first>Patrice</first><last>Enjalbert</last></author>
<author><first>Anne</first><last>Le Draoulec</last></author>
<author><first>Yann</first><last>Mathet</last></author>
<author><first>Hélène</first><last>Miguet</last></author>
<author><first>Marie-Paule</first><last>Péry-Woodley</last></author>
<author><first>Laure</first><last>Sarda</last></author>
<pages>315–320</pages>
<abstract>Cet article concerne la structuration automatique de documents par des méthodes linguistiques. De telles procédures sont rendues nécessaires par les nouvelles tâches de recherche d’information intradocumentaires (systèmes de questions-réponses, navigation sélective dans des documents...). Nous développons une méthode exploitant la théorie de l’encadrement du discours de Charolles, avec une application visée en recherche d’information dans les documents géographiques - d’où l’intérêt tout particulier porté aux cadres spatiaux et temporels. Nous décrivons une implémentation de la méthode de délimitation de ces cadres et son exploitation pour une tâche d’indexation intratextuelle croisant les critères spatiaux et temporels avec des critères thématiques.</abstract>
<url hash="9b4928ad">2003.jeptalnrecital-poster.4</url>
<language>fra</language>
<bibkey>bilhaut-etal-2003-indexation</bibkey>
</paper>
<paper id="5">
<title>Vers une théorie cognitive de la langue basée sur les contraintes</title>
<author><first>Philippe</first><last>Blache</last></author>
<pages>321–326</pages>
<abstract>Cet article fournit des éléments d’explication pour la description des relations entre les différents domaines de l’analyse linguistique. Il propose une architecture générale en vue d’une théorie formée de plusieurs niveaux : d’un côté les grammaires de chacun des domaines et de l’autre des relations spécifiant les interactions entre ces domaines. Dans cette approche, chacun des domaines est porteur d’une partie de l’information, celle-ci résultant également de l’interaction entre les domaines.</abstract>
<url hash="9b6b1a71">2003.jeptalnrecital-poster.5</url>
<language>fra</language>
<bibkey>blache-2003-vers</bibkey>
</paper>
<paper id="6">
<title>Identification automatique des valeurs temporelles dans les textes</title>
<author><first>Marie</first><last>Chagnoux</last></author>
<author><first>Slim</first><last>Ben Hazez</last></author>
<author><first>Jean-Pierre</first><last>Desclés</last></author>
<pages>327–332</pages>
<abstract>Cet article présente une application qui associe un certain nombre de valeurs sémantiques à des segments textuels en vue de proposer un traitement automatique de la temporalité dans les textes. Il s’agit d’automatiser une analyse sémantique de surface à l’aide de règles heuristiques d’exploration contextuelle et d’une base organisée de marqueurs linguistiques.</abstract>
<url hash="9febbb56">2003.jeptalnrecital-poster.6</url>
<language>fra</language>
<bibkey>chagnoux-etal-2003-identification</bibkey>
</paper>
<paper id="7">
<title>Structuration automatique de preuves mathématiques : de la logique à la rhétorique</title>
<author><first>Adil</first><last>El Ghali</last></author>
<author><first>Laurent</first><last>Roussarie</last></author>
<pages>333–338</pages>
<abstract>Nous présentons dans ses grandes lignes un modèle de structuration de documents pour la génération automatique de preuves mathématiques. Le modèle prend en entrée des sorties d’un prouveur automatique et vise à produire des textes dont le style s’approche le plus possible des démonstrations rédigées par des humains. Cela implique la mise au point d’une stratégie de planification de document capable de s’écarter de la structure purement logique de la preuve. La solution que nous proposons consiste à intégrer de manière simple des informations de type intentionnel afin d’enrichir la structure rhétorique finale du texte.</abstract>
<url hash="4001d173">2003.jeptalnrecital-poster.7</url>
<language>fra</language>
<bibkey>el-ghali-roussarie-2003-structuration</bibkey>
</paper>
<paper id="8">
<title><fixed-case>C</fixed-case>o<fixed-case>RR</fixed-case>ec<fixed-case>T</fixed-case> : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes</title>
<author><first>Chantal</first><last>Enguehard</last></author>
<pages>339–346</pages>
<abstract>La reconnaissance de termes dans les textes intervient dans de nombreux domaines du Traitement Automatique des Langues Naturelles, qu’il s’agisse d’indexation automatique, de traduction, ou d’extraction de connaissances. Nous présentons une méthodologie d’évaluation de Systèmes de Reconnaissance de Termes (SRT) qui vise à minimiser le temps d’expertise des spécialistes en faisant coopérer des SRT. La méthodologie est mise en oeuvre sur des textes en anglais dans le domaine de la chimie des métaux et à l’aide de deux SRT : FASTR et SYRETE. Le banc de test construit selon cette méthodologie a permis de valider les SRT et d’évaluer leurs performances en termes de rappel et de précision.</abstract>
<url hash="91402c3a">2003.jeptalnrecital-poster.8</url>
<language>fra</language>
<bibkey>enguehard-2003-correct</bibkey>
</paper>
<paper id="9">
<title>Filtrage thématique d’un réseau de collocations</title>
<author><first>Olivier</first><last>Ferret</last></author>
<pages>347–352</pages>
<abstract>Les réseaux lexicaux de type WordNet présentent une absence de relations de nature thématique, relations pourtant très utiles dans des tâches telles que le résumé automatique ou l’extraction d’information. Dans cet article, nous proposons une méthode visant à construire automatiquement à partir d’un large corpus un réseau lexical dont les relations sont préférentiellement thématiques. En l’absence d’utilisation de ressources de type dictionnaire, cette méthode se fonde sur un principe d’auto-amorçage : un réseau de collocations est d’abord construit à partir d’un corpus puis filtré sur la base des mots du corpus que le réseau initial a permis de sélectionner. Nous montrons au travers d’une évaluation portant sur la segmentation thématique que le réseau final, bien que de taille bien inférieure au réseau initial, permet d’obtenir les mêmes performances que celui-ci pour cette tâche.</abstract>
<url hash="1885512f">2003.jeptalnrecital-poster.9</url>
<language>fra</language>
<bibkey>ferret-2003-filtrage</bibkey>
</paper>
<paper id="10">
<title>Une méthode non supervisée d’apprentissage sur le Web pour la résolution d’ambiguïtés structurelles liées au rattachement prépositionnel</title>
<author><first>Núria</first><last>Gala Pavia</last></author>
<pages>353–358</pages>
<abstract>Dans cet article, nous proposons une méthode non supervisée d’apprentissage qui permet d’améliorer la désambiguïsation du rattachement prépositionnel dans le cadre d’un analyseur robuste à base de règles pour le français. Les rattachements ambigus d’une première analyse sont transformés en requêtes sur leWeb dans le but de créer un grand corpus qui sera analysé et d’où seront extraites automatiquement des informations lexicales et statistiques sur les rattachements. Ces informations seront ensuite utilisées dans une deuxième analyse pour lever les ambiguïtés des rattachements. L’avantage d’une telle méthode est la prise en compte de cooccurrences syntaxiques et non pas des cooccurrences purement textuelles. En effet, les mesures statistiques (poids) sont associées à des mots apparaissant initialement dans une même relation de dépendance, c’est-à-dire, des attachements produits par le parseur lors d’une première analyse.</abstract>
<url hash="aafaad0c">2003.jeptalnrecital-poster.10</url>
<language>fra</language>
<bibkey>gala-pavia-2003-une</bibkey>
</paper>
<paper id="11">
<title>Bases de connaissances pour asseoir la crédibilité des réponses d’un système de <fixed-case>Q</fixed-case>/<fixed-case>R</fixed-case></title>
<author><first>Laurent</first><last>Gillard</last></author>
<author><first>Patrice</first><last>Bellot</last></author>
<author><first>Marc</first><last>El-Bèze</last></author>
<pages>359–364</pages>
<abstract>Cet article présente un prototype de Question/Réponse (Q/R) impliquant un ensemble de bases de connaissances (BC) dont l’objectif est d’apporter un crédit supplémentaire aux réponses candidates trouvées. Ces BC et leur influence sur la stratégie d’ordonnancement mise en uvre sont décrites dans le cadre de la participation du système à la campagne Q/R de TREC-2002.</abstract>
<url hash="4f4fb4a3">2003.jeptalnrecital-poster.11</url>
<language>fra</language>
<bibkey>gillard-etal-2003-bases</bibkey>
</paper>
<paper id="12">
<title>Un logiciel pour la mise au point de grammaires pour le filtrage d’information en arabe (cas de l’information citationnelle)</title>
<author><first>André</first><last>Jaccarini</last></author>
<author><first>Mourad</first><last>Ghassan</last></author>
<author><first>Christian</first><last>Gaubert</last></author>
<author><first>Brahim</first><last>Djioua</last></author>
<pages>365–372</pages>
<abstract>Nous présentons dans ce travail un logiciel de mise au point de grammaires pour le traitement morpho-syntaxique de l’arabe et l’établissement de grammaires pour le filtrage et l’extraction d’information en arabe. Ce logiciel est fondé sur le principe des automates. L’analyse morpho-syntaxique de l’arabe est réalisé sans le recours au lexique.</abstract>
<url hash="bae48f28">2003.jeptalnrecital-poster.12</url>
<language>fra</language>
<bibkey>jaccarini-etal-2003-un</bibkey>
</paper>
<paper id="13">
<title>Using decision trees to learn lexical information in a linguistics-based <fixed-case>NLP</fixed-case> system</title>
<author><first>Marisa</first><last>Jiménez</last></author>
<author><first>Martine</first><last>Pettenaro</last></author>
<pages>373–378</pages>
<abstract>This paper describes the use of decision trees to learn lexical information for the enrichment of our natural language processing (NLP) system. Our approach to lexical learning differs from other approaches in the field in that our machine learning techniques exploit a deep knowledge understanding system. After the introduction we present the overall architecture of our lexical learning module. In the following sections we present a showcase of lexical learning using decision trees: we learn verbs that take a human subject in Spanish and French.</abstract>
<url hash="b51d2e64">2003.jeptalnrecital-poster.13</url>
<bibkey>jimenez-pettenaro-2003-using</bibkey>
</paper>
<paper id="14">
<title><fixed-case>MDA</fixed-case>-<fixed-case>XML</fixed-case> : une expérience de rédaction contrôlée multilingue basée sur <fixed-case>XML</fixed-case></title>
<author><first>Guy</first><last>Lapalme</last></author>
<author><first>Caroline</first><last>Brun</last></author>
<author><first>Marc</first><last>Dymetman</last></author>
<pages>379–384</pages>
<abstract>Nous décrivons dans cet article l’implantation d’un système de rédaction contrôlée multilingue dans un environnement XML. Avec ce système, un auteur rédige interactivement un texte se conformant à des règles de bonne formation aux niveaux du contenu sémantique et de la réalisation linguistique décrites par un schéma XML. Nous discutons les avantages de cette approche ainsi que les difficultés rencontrées lors du développement de ce système. Nous concluons avec un exemple d’application à une classe de documents pharmaceutiques.</abstract>
<url hash="405ed4c3">2003.jeptalnrecital-poster.14</url>
<language>fra</language>
<bibkey>lapalme-etal-2003-mda</bibkey>
</paper>
<paper id="15">
<title>Apport d’un modèle de langage statistique pour la reconnaissance de l’écriture manuscrite en ligne</title>
<author><first>Freddy</first><last>Perraud</last></author>
<author><first>Emmanuel</first><last>Morin</last></author>
<author><first>Christian</first><last>Viard-Gaudin</last></author>
<author><first>Pierre-Michel</first><last>Lallican</last></author>
<pages>385–390</pages>
<abstract>Dans ce travail, nous étudions l’apport d’un modèle de langage pour améliorer les performances des systèmes de reconnaissance de l’écriture manuscrite en-ligne. Pour cela, nous avons exploré des modèles basés sur des approches statistiques construits par apprentissage sur des corpus écrits. Deux types de modèles ont été étudiés : les modèles n-grammes et ceux de type n-classes. En vue de l’intégration dans un système de faible capacité (engin nomade), un modèle n-classe combinant critères syntaxiques et contextuels a été défini, il a permis d’obtenir des résultats surpassant ceux donnés avec un modèle beaucoup plus lourd de type n-gramme. Les résultats présentés ici montrent qu’il est possible de prendre en compte les spécificités d’un langage en vue de reconnaître l’écriture manuscrite avec des modèles de taille tout à fait raisonnable.</abstract>
<url hash="0bce8268">2003.jeptalnrecital-poster.15</url>
<language>fra</language>
<bibkey>perraud-etal-2003-apport</bibkey>
</paper>
<paper id="16">
<title>Prototypage rapide et évaluation de modèles de dialogue finalisés</title>
<author><first>Martin</first><last>Rajman</last></author>
<author><first>Andréa</first><last>Rajman</last></author>
<author><first>Florian</first><last>Seydoux</last></author>
<author><first>Alex</first><last>Trutnev</last></author>
<pages>391–396</pages>
<abstract>L’objectif de cette contribution est de présenter l’intégration de la notion d’évaluation dans la méthodologie de prototypage rapide de modèles de dialogue développée et mise en oeuvre dans le cadre du projet InfoVox. L’idée centrale de cette méthodologie est de dériver un modèle de dialogue opérationnel directement à partir du modèle de la tâche à laquelle il est associé. L’intégration systématique de différents aspects de l’évaluation dans le processus de prototypage est alors utile afin d’identifier, dès la phase de conception, les qualités et défauts de l’interface. Toutes les conclusions présentées seront illustrées par des résultats concrets obtenus au cours d’expériences réalisées dans le cadre du projet InfoVox.</abstract>
<url hash="30e971ff">2003.jeptalnrecital-poster.16</url>
<language>fra</language>
<bibkey>rajman-etal-2003-prototypage</bibkey>
</paper>
<paper id="17">
<title>Text Tokenization for Knowledge-free Automatic Extraction of Lexical Similarities</title>
<author><first>Aristomenis</first><last>Thanopoulos</last></author>
<author><first>Nikos</first><last>Fakotakis</last></author>
<author><first>George</first><last>Kokkinakis</last></author>
<pages>397–402</pages>
<abstract>Previous studies on automatic extraction of lexical similarities have considered as semantic unit of text the word. However, the theory of contextual lexical semantics implies that larger segments of text, namely non-compositional multiwords, are more appropriate for this role. We experimentally tested the applicability of this notion applying automatic collocation extraction to identify and merge such multiwords prior to the similarity estimation process. Employing an automatic WordNet-based comparative evaluation scheme along with a manual evaluation procedure, we ascertain improvement of the extracted similarity relations.</abstract>
<url hash="619f37fc">2003.jeptalnrecital-poster.17</url>
<bibkey>thanopoulos-etal-2003-text</bibkey>
</paper>
<paper id="18">
<title>Le traitement automatique de la langue contre les erreurs judiciaires : une méthodologie d’analyse systématique des textes d’un dossier d’instruction</title>
<author><first>Yannick</first><last>Toussaint</last></author>
<pages>403–408</pages>
<abstract>Cet article présente une méthode d’analyse systématique et scientifique des documents constituant un dossier d’instruction. L’objectif de cette approche est de pouvoir donner au juge d’instruction de nouveaux moyens pour évaluer la cohérence, les incohérences, la stabilité ou les variations dans les témoignages. Cela doit lui permettre de définir des pistes pour mener de nouvelles investigations. Nous décrivons les travaux que nous avons réalisés sur un dossier réel puis nous proposons une méthode d’analyse des résultats.</abstract>
<url hash="d548b29a">2003.jeptalnrecital-poster.18</url>
<language>fra</language>
<bibkey>toussaint-2003-le</bibkey>
</paper>
<paper id="19">
<title>Le contexte au service de la correction des graphies fautives arabes</title>
<author><first>Chiraz</first><last>Ben Othmane Zribi</last></author>
<author><first>Mohamed</first><last>Ben Ahmed</last></author>
<pages>409–414</pages>
<abstract>Les mots arabes sont lexicalement beaucoup plus proches les uns des autres que les mots français et anglais. Cette proximité a pour effet un grand nombre de propositions à la correction d’une forme erronée arabe. Nous proposons dans cet article une méthode qui prend en considération le contexte de l’erreur pour éliminer certaines propositions données par le correcteur. Le contexte de l’erreur sera dans un premier temps les mots voisinant l’erreur et s’étendra jusqu’à l’ensemble des mots du texte contenant l’erreur. Ayant été testée sur un corpus textuel contenant des erreurs réelles, la méthode que nous proposons aura permis de réduire le nombre moyen de propositions d’environ 75% (de 16,8 à 3,98 propositions en moyenne).</abstract>
<url hash="eca44da6">2003.jeptalnrecital-poster.19</url>
<language>fra</language>
<bibkey>ben-othmane-zribi-ben-ahmed-2003-le</bibkey>
</paper>
</volume>
<volume id="tutoriel" ingest-date="2021-02-05">
<meta>
<booktitle>Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Tutoriels</booktitle>
<editor><first>Béatrice</first><last>Daille</last></editor>
<editor><first>Emmanuel</first><last>Morin</last></editor>
<publisher>ATALA</publisher>
<address>Batz-sur-Mer, France</address>
<month>June</month>
<year>2003</year>
</meta>
<frontmatter>
<url hash="394d0f26">2003.jeptalnrecital-tutoriel.0</url>
<bibkey>jep-taln-recital-2003-actes-de-la</bibkey>
</frontmatter>
<paper id="1">
<title>Introduction à la traduction guidée par l’exemple (Traduction par analogie)</title>
<author><first>Michael</first><last>Carl</last></author>
<pages>11–26</pages>
<abstract>Le nombre d’approches en traduction automatique s’est multiplié dans les dernières années. Il existe entre autres la traduction par règles, la traduction statistique et la traduction guidée par l’exemple. Dans cet article je decris les approches principales en traduction automatique. Je distingue les approches qui se basent sur des règles obtenues par l’inspection des approches qui se basent sur des exemples de traduction. La traduction guidée par l’exemple se caractérise par la phrase comme unité de traduction idéale. Une nouvelle traduction est génerée par analogie : seulement les parties qui changent par rapport à un ensemble de traductions connues sont adaptées, modifiées ou substituées. Je présente quelques techniques qui ont été utilisées pour ce faire. Je discuterai un système spécifique, EDGAR, plus en detail. Je démontrerai comment des textes traduits alignés peuvent être preparés en termes de compilation pour extraire des unités de traduction sous-phrastiques. Je présente des résultats en traduction Anglais -> Français produits avec le système EDGAR en les comparant avec ceux d’un système statistique.</abstract>
<url hash="fc4c7080">2003.jeptalnrecital-tutoriel.1</url>
<language>fra</language>
<bibkey>carl-2003-introduction</bibkey>
</paper>
<paper id="2">
<title>Construction d’ontologies à partir de textes</title>
<author><first>Didier</first><last>Bourigault</last></author>
<author><first>Nathalie</first><last>Aussenac-Gilles</last></author>
<pages>27–48</pages>
<abstract>Cet article constitue le support d’un cours présenté lors de la conférence TALN 2003. Il défend la place du Traitement Automatique des Langues comme discipline clé pour le développement de ressources termino-ontologiques à partir de textes. Les contraintes et enjeux de ce processus sont identifiés, en soulignant l’importance de considérer cette tâche comme un processus supervisé par un analyste. Sont présentés un certain nombre d’outils logiciels et méthodologiques venant de plusieurs disciplines comme le TAL et l’ingénierie des connaissances qui peuvent aider l’analyste dans sa tâche. Divers retours d’expérience sont présentés.</abstract>
<url hash="59ce8d27">2003.jeptalnrecital-tutoriel.2</url>
<language>fra</language>
<bibkey>bourigault-aussenac-gilles-2003-construction</bibkey>
</paper>
</volume>
<volume id="recital" ingest-date="2021-02-05">
<meta>
<booktitle>Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues</booktitle>
<editor><first>Emmanuel</first><last>Morin</last></editor>
<publisher>ATALA</publisher>
<address>Batz-sur-Mer, France</address>
<month>June</month>
<year>2003</year>
</meta>
<frontmatter>
<url hash="5d8f8f50">2003.jeptalnrecital-recital.0</url>
<bibkey>jep-taln-recital-2003-actes-de-la-10eme</bibkey>
</frontmatter>
<paper id="1">
<title>Analyse syntaxique de l’Arabe: Le système <fixed-case>MASPAR</fixed-case></title>
<author><first>Chafik</first><last>Aloulou</last></author>
<pages>419–428</pages>
<abstract>De nombreux systèmes de Traitement Automatique des Langues (TAL) utilisent une architecture séquentielle basée sur la transmission, à la fin de chaque phase d’analyse, des résultats trouvés à la phase d’analyse suivante. Ces types de systèmes séquentiels posent plusieurs problèmes (i.e. explosion combinatoire des solutions, lourdeur d’analyse, etc.). Pour remédier à ces problèmes, plusieurs solutions de remplacement ont vu le jour, nous pouvons citer par exemple, l’utilisation des approches multi-agent que nous avons adopté pour faire l’analyse syntaxique de textes Arabes, et que nous présentons dans cet article.</abstract>
<url hash="3108dd81">2003.jeptalnrecital-recital.1</url>
<language>fra</language>
<bibkey>aloulou-2003-analyse</bibkey>
</paper>
<paper id="2">
<title>Fusionner pour mieux analyser: quelques idées et une première expérience</title>
<author><first>Francis</first><last>Brunet-Manquat</last></author>
<pages>429–438</pages>
<abstract>L’objectif de cet article est de présenter nos travaux sur l’analyse d’un énoncé vers une structure de dépendance. Cette structure décrit les relations entre mots, des relations syntaxiques mais également des relations sémantiques de surface de l’énoncé de départ dans un certain contexte. L’idée est de créer une plateforme d’analyse capable d’intégrer des analyseurs linguistiques existants (syntaxiques ou de dépendance) et de fusionner leurs résultats dans le but d’obtenir une analyse de dépendance pour des énoncés quelconques.</abstract>
<url hash="dccf4306">2003.jeptalnrecital-recital.2</url>
<language>fra</language>
<bibkey>brunet-manquat-2003-fusionner</bibkey>
</paper>
<paper id="3">
<title>Extraction de segments thématiques pour la construction de résumé multi-document orienté par un profil utilisateur</title>
<author><first>Sana-Leila</first><last>Chaar</last></author>
<pages>439–448</pages>
<abstract>Dans cet article, nous présentons une méthode qui vise à donner à un utilisateur la possibilité de parcourir rapidement un ensemble de documents par le biais d’un profil utilisateur. Un profil est un ensemble de termes structuré en sous-ensembles thématiquement homogènes. L’analyse des documents se fonde pour sa part sur l’extraction des passages les plus étroitement en relation avec ce profil. Cette analyse permet en particulier d’étendre le vocabulaire définissant un profil en fonction du document traité en sélectionnant les termes de ce dernier les plus étroitement liés aux termes du profil. Cette capacité ouvre ainsi la voie à une plus grande finesse du filtrage en permettant la sélection d’extraits de documents ayant un lien plus ténu avec les profils mais davantage susceptibles d’apporter des informations nouvelles et donc intéressantes. La production du résumé résulte de l’appariement entre les segments délimités lors de l’analyse des documents et les thèmes du profil.</abstract>
<url hash="94dc4d84">2003.jeptalnrecital-recital.3</url>
<language>fra</language>
<bibkey>chaar-2003-extraction</bibkey>
</paper>
<paper id="4">
<title>Structure communicative du discours : étude pour la génération automatique de textes</title>
<author><first>Laurence</first><last>Delort</last></author>
<pages>449–458</pages>
<abstract>Dans cet article, nous montrons que la cohérence d’un discours dépend de la relation entre la structure communicative des phrases et la structure du discours. Du point de vue de la synthèse, la visée communicative contrôle la structure du discours, et la structure du discours contraint le choix des structures communicatives phrastiques : nous proposons de reproduire ce processus dans un système de génération de textes. Nous montrons de quelle manière la structure communicative intervient lors de la phase de structuration de document pour permettre la génération de discours cohérents et répondant à des visées communicatives particulières.</abstract>
<url hash="f484e01e">2003.jeptalnrecital-recital.4</url>
<language>fra</language>
<bibkey>delort-2003-structure</bibkey>
</paper>
<paper id="5">
<title>Procédures d’apprentissage endogène doublées de ressources exogènes : résolution en corpus d’une ambiguïté sur «de»</title>
<author><first>Cécile</first><last>Frérot</last></author>
<pages>459–468</pages>
<abstract>Dans cette étude, nous nous intéressons à l’apport de ressources exogènes dans un analyseur syntaxique de corpus basé sur des procédures d’apprentissage endogène. Nous menons une expérience en corpus sur un cas d’ambiguïté catégorielle du français (forme de en position postverbale, article ou préposition). Après avoir présenté et évalué la stratégie endogène, nous en analysons les limites. Nous discutons ensuite la perspective d’une approche mixte combinant des informations acquises de manière endogène à des informations exogènes (données de sous-catégorisation verbale sur la préposition de). Nous montrons alors comment un apport maximal de ressources exogènes améliore les performances de l’analyseur (+8%, +15% sur les deux corpus évalués). Nous présentons les premiers résultats d’une approche mixte avant de conclure sur les orientations futures du travail.</abstract>
<url hash="2da0a2ae">2003.jeptalnrecital-recital.5</url>
<language>fra</language>
<bibkey>frerot-2003-procedures</bibkey>
</paper>
<paper id="6">
<title>Polysémie verbale et construction syntaxique : étude sur le verbe jouer</title>
<author><first>Guillaume</first><last>Jacquet</last></author>
<pages>469–478</pages>
<abstract>Dans l’analyse sémantique de textes, un des obstacles au TAL est la polysémie des unités linguistiques. Par exemple, le sens du verbe jouer peut varier en fonction du contexte : Il joue de la trompette (pratiquer) ; Il joue avec son fils (s’amuser). Une des approches pour traiter ces ambiguïtés de sens, est le modèle de la construction dynamique du sens proposé par B. Victorri et C. Fuchs (1996). Dans ce modèle, on associe à chaque unité polysémique un espace sémantique, et le sens de l’unité dans un énoncé donné est le résultat d’une interaction dynamique avec les autres unités présentes dans l’énoncé. Nous voulons montrer ici que les constructions verbales sont des éléments du co-texte qui contribuent, au même titre que le co-texte lexical, au processus dynamique de construction du sens du verbe. L’objectif est alors de montrer que les constructions verbales sont porteuses de sens intrinsèque (Goldberg, 1995) et qu’elles permettent dans notre modèle de contraindre automatiquement le sens d’un verbe.</abstract>
<url hash="5443a7a8">2003.jeptalnrecital-recital.6</url>
<language>fra</language>
<bibkey>jacquet-2003-polysemie</bibkey>
</paper>
<paper id="7">
<title>Vers une Approche Fonctionnelle de la Résolution de la Référence dans le Dialogue Finalisé</title>
<author><first>Guillaume</first><last>Pitel</last></author>
<pages>479–488</pages>
<abstract>Dans cet article, nous montrons l’insuffisance du pouvoir d’expression des approches par prédicats pour la résolution de la référence en extension dans un cadre générique de dialogue homme-machine. Cette insuffisance oblige pour l’instant les concepteurs de tels systèmes de dialogue à concevoir des heuristiques ad hoc impossibles à intégrer dans un cadre de description unifié. Nous montrons que la résolution des expressions référentielles nécessite la prise en compte du contexte même pour les termes portant sur des caractéristiques intrinsèques aux éléments. Nous proposons alors un formalisme pour représenter la sémantique des extracteurs référentiels intrinsèques. Ce formalisme repose sur trois fonctions, la première permet de calculer le rapport de similarité de deux éléments en fonction d’une certaine dimension et dans un certain contexte, les deux autres permettent de partitionner un domaine de référence trié par l’utilisation de la première fonction.</abstract>
<url hash="3da6b473">2003.jeptalnrecital-recital.7</url>
<language>fra</language>
<bibkey>pitel-2003-vers</bibkey>
</paper>
<paper id="8">
<title>Société d’agents apprenants et sémantique lexicale : comment construire des vecteurs conceptuels à l’aide de la double boucle</title>
<author><first>Didier</first><last>Schwab</last></author>
<pages>489–498</pages>
<abstract>Dans le cadre de la représentation du sens en TALN, nous développons actuellement un système d’analyse des aspects thématiques des textes et de désambiguïsation lexicale basée sur les vecteurs conceptuels. Ces vecteurs visent à représenter un ensemble d’idées associées à tout segment textuel. À partir de ce modèle, nous avons posé des hypothèses sur la construction des vecteurs. Dans cet article, nous montrons comment ces hypothèses, ainsi que des considérations techniques comme la possibilité de distribuer les tâches à effectuer ou la modularité, nous ont amenées à adopter une architecture multi-agents. Chaque agent possède un certain nombre de compétences, une mémoire qui lui est propre et peut interragir avec son environnement (les autres agents). Pour finir, nous présentons les agents déjà implémentés et un exemple de leur collaboration.</abstract>
<url hash="f7aa9942">2003.jeptalnrecital-recital.8</url>
<language>fra</language>
<bibkey>schwab-2003-societe</bibkey>
</paper>
</volume>
<volume id="recitalposter" ingest-date="2021-02-05">
<meta>
<booktitle>Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters)</booktitle>
<editor><first>Emmanuel</first><last>Morin</last></editor>
<publisher>ATALA</publisher>
<address>Batz-sur-Mer, France</address>
<month>June</month>
<year>2003</year>
</meta>
<frontmatter>
<url hash="b6e2bfc3">2003.jeptalnrecital-recitalposter.0</url>
<bibkey>jep-taln-recital-2003-actes-de-la-10eme-sur</bibkey>
</frontmatter>
<paper id="1">
<title>Un “langage pivot” pour articuler description et formalisation : l’exemple des verbes introducteurs de “que-phrases”</title>
<author><first>Christophe</first><last>Benzitoun</last></author>
<pages>501–506</pages>
<abstract>Nous présentons dans cet article une réflexion en vue de la modélisation d’une partie du patrimoine descriptif du français finalement peu utilisé en TALN. Pour ce faire, nous utilisons le concept de langage “pivot” qui permet d’articuler la description et la présentation formalisée.</abstract>
<url hash="a44c0223">2003.jeptalnrecital-recitalposter.1</url>
<language>fra</language>
<bibkey>benzitoun-2003-un</bibkey>
</paper>
<paper id="2">
<title>Un étiquetage morphologique pour une résolution des ambiguïtés morphologiques en anglais</title>
<author><first>Gaëlle</first><last>Birocheau</last></author>
<pages>507–514</pages>
<abstract>Cet article expose la recherche effectuée dans le cadre de mon doctorat visant à élaborer un étiquetage morphologique de l’anglais et à désambiguïser automatiquement les ambiguïtés dues à la morphologie dans le cadre du projet LABELGRAM [9]. Nous montrons qu’il est très pertinent et efficace de travailler conjointement sur l’étiquetage et la désambiguïsation. Nous décrivons de manière précise notre contribution au système qui a consisté à mettre en place la partie anglaise. Pour ce faire, nous avons établi un dictionnaire en intention, nous avons évalué quantitativement le phénomène d’ambiguïté morphologique et établi la validité de la méthode de désambiguïsation par règles contextuelles pour l’anglais.</abstract>
<url hash="9f37cb14">2003.jeptalnrecital-recitalposter.2</url>
<language>fra</language>
<bibkey>birocheau-2003-un</bibkey>
</paper>
<paper id="3">
<title>Traitement de la morphologie du finnois par transducteurs à nombre fini d’états</title>
<author><first>Marie</first><last>Calberg</last></author>
<pages>515–520</pages>
<abstract>Cette étude présente un modèle pour le traitement de la morphologie du finnois. Ce modèle est fondé sur des transducteurs à nombre fini d’états. L’approche utilise une façon originale d’organiser les données et de générer dynamiquement une structure sémantique à partir d’une analyse morphologique. L’approche est linguistiquement validée par une étude des suffixes de dérivation verbale en finnois.</abstract>
<url hash="4313c368">2003.jeptalnrecital-recitalposter.3</url>
<language>fra</language>
<bibkey>calberg-2003-traitement</bibkey>
</paper>
<paper id="4">
<title>Un outil de représentation et de développement des Grammaires de Propriétés</title>
<author><first>Marie-Laure</first><last>Guénot</last></author>
<author><first>Tristan</first><last>VanRullen</last></author>
<pages>521–526</pages>
<abstract>Nous présentons dans cet article un outil graphique de développement de grammaire, basé sur le formalisme des Grammaires de Propriétés. Nous y exprimons les raisons pour lesquelles l’association d’une représentation complète et ergonomique, et d’un modèle formel flexible et homogène fournit un avantage considérable pour l’intégration des informations issues de la linguistique descriptive.</abstract>
<url hash="6ca051f5">2003.jeptalnrecital-recitalposter.4</url>
<language>fra</language>
<bibkey>guenot-vanrullen-2003-un</bibkey>
</paper>
<paper id="5">
<title>Annotation sémantique hors-source à l’aide de vecteurs conceptuels</title>
<author><first>Fabien</first><last>Jalabert</last></author>
<pages>527–532</pages>
<abstract>Dans le cadre de la recherche en sémantique lexicale, nous utilisons le modèle des vecteurs conceptuels pour représenter les sens de termes. La base vectorielle est construite à partir de définitions provenant de diverses sources lexicales, ce qui permet statistiquement de tempérer les diverses incohérences locales. Pour désigner le sens obtenu après un regroupement des définitions, nous utilisons un identificateur qui entraîne certaines contraintes. En particulier, un “cluster” de définition est désigné par une référence vers différentes définitions de la multisource. D’autre part, le contrôle de la qualité d’une classification ou désambiguisation de sens impose de faire référence en permanence au lexique source. Nous proposons donc de nommer un sens à l’aide d’un autre terme du lexique. L’annotation est un outil léger et efficace qui est essentiellement une association d’idées que l’on peut extraire de toute base de connaissance linguistique. Les annotations obtenues peuvent finalement constituer une nouvelle source d’apprentissage pour la base de vecteurs conceptuels.</abstract>
<url hash="c4e58e0b">2003.jeptalnrecital-recitalposter.5</url>
<language>fra</language>
<bibkey>jalabert-2003-annotation</bibkey>
</paper>
<paper id="6">
<title>Un système de segmentation du chinois basé sur des triplets</title>
<author><first>Yiping</first><last>Li</last></author>
<pages>533–538</pages>
<abstract>Un des problèmes rencontrés lors de l’analyse de textes en chinois est qu’il n’existe pas de séparateur entré lés mots dans cette langue. Le mot étant une unité linguistique fondamentale en traitement automatique dé la langue, il est nécessaire d’identifier les mots dans un texte chinois afin que des analysés de plus haut niveau puissent être réalisées. Le but de cet article est dé présenter un système d’idéntification dés mots basé sur un algorithme utilisant des triplets dé catégories grammaticales ét dés fréquences de mots. Cé système comprend deux dictionnaires : l’un dédié aux mots ét à léurs fréquences, l’autré aux triplets dés catégories correspondantes. Les tests qui ont été effectués révèlent que 98,5% dés phrases sont découpées correctement. Certaines erreurs sont dués à la taillé limitée du dictionnaire utilisé. Une réflexion sur la création de nouvelles catégories ét dés études proposant des règles grammaticales sont en cours de réalisation afin d’aug1nénter la performance du système.</abstract>
<url hash="6c68b719">2003.jeptalnrecital-recitalposter.6</url>
<language>fra</language>
<bibkey>li-2003-un</bibkey>
</paper>
<paper id="7">
<title>Vers une architecture générique de système de dialogue oral homme-machine</title>
<author><first>Hoá</first><last>Nguyen</last></author>
<pages>539–546</pages>
<abstract>Cet article présente une architecture générique de système de dialogue oral homme-machine. Premièrement, nous abordons quelques problèmes soulevés par la généricité des systèmes de dialogue homme-machine. Nous décrivons ensuite dans ce cadre quelques systèmes récents et typiques. Nous présentons finalement une architecture générique pour concevoir/construire des systèmes de dialogue oral homme-machine.</abstract>
<url hash="76f69176">2003.jeptalnrecital-recitalposter.7</url>
<language>fra</language>
<bibkey>nguyen-2003-vers</bibkey>
</paper>
<paper id="8">
<title>Sélection de critères pour le filtrage automatique de messages</title>
<author><first>Omar</first><last>Nouali</last></author>
<pages>547–552</pages>
<abstract>La plupart des systèmes de filtrage du courrier électronique existants enregistrent des lacunes ou faiblesses sur l’efficacité du filtrage. Certains systèmes sont basés seulement sur le traitement de la partie structurée (un ensemble de règles sur l’entête du message), et d’autres sont basés sur un balayage superficiel de la partie texte du message (occurrence d’un ensemble de mots clés décrivant les intérêts de l’utilisateur). Cet article propose une double amélioration de ces systèmes. D’une part, nous proposons un ensemble de critères automatisables et susceptibles d’influer sur le processus de filtrage. Ces critères sont des indices qui portent généralement sur la structure et le contenu des messages. D’autre part, nous utilisons une méthode d’apprentissage automatique permettant au système d’apprendre à partir de données et de s’adapter à la nature des mails dans le temps. Dans cet article, nous nous intéressons à un type de messages bien particulier, qui continue à polluer nos boîtes emails de façon croissante : les messages indésirables, appelés spam. Nous présentons à la fin les résultats d’une expérience d’évaluation.</abstract>
<url hash="92a16864">2003.jeptalnrecital-recitalposter.8</url>
<language>fra</language>
<bibkey>nouali-2003-selection</bibkey>
</paper>
</volume>
</collection>