28 nov 2018 · des avancées récentes en traitement automatique du langage In Traitement Automatique des Langues Naturelles (TALN) ASAAD W système a pu capturer des relations sémantiques entre repo et repository, PPT et APT
Previous PDF | Next PDF |
[PDF] Traitement Automatique du Langage Naturel - Free
Introduction au Traitement Automatique du Langage Naturel Niveaux de traitements et principaux outils Plateformes d'annotations linguistiques Apache UIMA
[PDF] Une petite introduction au Traitement Automatique des Langues
On regroupe sous le vocable de traitement automatique du langage naturel ( TALN) l'ensemble des re- cherches et développements visant à modéliser et
[PDF] TAL : Traitement Automatique des Langues Cours 10 - LaLIC
LeTraitement automatique de la langue naturelle (TALN) ou des langues (TAL) est une discipline à la frontière de la linguistique, de l'informatique et de
[PDF] Applications du traitement automatique du langage naturel - Enssib
DESCRIPTEURS: Langage naturel; Traitement automatis6; Analyseur langage; I PRESENTATION DE LA RECHERCHE Avant toute recherche, ii diff6rentes applications du traitement automatique des langues naturelles ( T A L N ) et sur
[PDF] Mémoire Finale - BENAISSA
Chapitre 1 : Traitement automatique du langage naturel (TALN) 2 LES DIFFERENTS NIVEAUX D'ANALYSE EN TALN PRESENTATION DE WORDNET
[PDF] Présentation PowerPoint
Le traitement automatique du langage naturel couvre un éventail très large d' applications L'apprentissage automatique (machine learning) fait référence
[PDF] Actes de la conférence Traitement Automatique de la Langue
28 nov 2018 · des avancées récentes en traitement automatique du langage In Traitement Automatique des Langues Naturelles (TALN) ASAAD W système a pu capturer des relations sémantiques entre repo et repository, PPT et APT
[PDF] TALN Informatique - Laboratoire Parole et Langage
Le Traitement Automatique des Langues a pour objectif de traiter des données linguistiques (textes) exprimées dans une langue dite ”naturelle” [Delafosse
[PDF] Le traitement automatique du langage naturel - Pierre Senellart
1 jui 2015 · TALN : Traitement Automatique du Langage Naturel Domaine à la frontière de: ○ L'intelligence artificielle ○ La linguistique
[PDF] Conversion des requêtes en langage naturel vers nRQL
Malgré que, le traitement automatique des langues naturelles recouvre les trois niveaux de l'analyse linguistique (morphologique, syntaxique, et sémantique),
[PDF] trajet ouibus angers paris
[PDF] transform based image compression
[PDF] transform vector into cylindrical coordinates
[PDF] transformation adiabatique exercice corrigé
[PDF] transformation isobare
[PDF] transformation isochore
[PDF] transformation isotherme
[PDF] transformation voix active
[PDF] transition words list pdf for elementary students
[PDF] translate english to french
[PDF] translate english to french context
[PDF] translate english to kinyarwanda words
[PDF] translating statements into symbolic form calculator
[PDF] translation model
>G A/, ?H@yR39j8ey ?iiTb,ff?HXb+B2M+2f?H@yR39j8ey am#KBii2/ QM k3 LQp kyR3 ?>??GBb KmHiB@/Bb+BTHBM`v QT2M ++2bb `+?Bp2 7Q` i?2 /2TQbBi M/ /Bbb2KBMiBQM Q7 b+B@
2MiB}+ `2b2`+? /Q+mK2Mib- r?2i?2` i?2v `2 Tm#@
HBb?2/ Q` MQiX h?2 /Q+mK2Mib Kv +QK2 7`QK
i2+?BM; M/ `2b2`+? BMbiBimiBQMb BM 6`M+2 Q` #`Q/- Q` 7`QK Tm#HB+ Q` T`Bpi2 `2b2`+? +2Mi2`bX /2biBMû2 m /ûT¬i 2i ¨ H /BzmbBQM /2 /Q+mK2Mib b+B2MiB}[m2b /2 MBp2m `2+?2`+?2- Tm#HBûb Qm MQM-Tm#HB+b Qm T`BpûbX
+i2b /2 H +QM7û`2M+2 h`Bi2K2Mi miQKiB[m2 /2 HGM;m2 Lim`2HH2- hGL kyR3
oBM+2Mi *Hp2m- Sb+H2 aû#BHHQi hQ +Bi2 i?Bb p2`bBQM, oBM+2Mi *Hp2m- Sb+H2 aû#BHHQi U.B`XVX +i2b /2 H +QM7û`2M+2 h`Bi2K2Mi miQKiB[m2 /2 H GM;m2 Lim`2HH2- hGL kyR3, oQHmK2 R, `iB+H2b HQM;b- `iB+H2b +Qm`ib /2 hGLX kyR3X ?H@yR39j8eyActes de la conférence TALN 2018
Volume 1 : Articles longs, articles courts de TALN Pascale Sébillot,IRISA, INSA RennesVincent Claveau,CNRS, IRISA, Univ. RennesPréface
cATALA 2018iii
Mots des présidents des comités de programmePour la première fois, l"ARIA (Association francophone de Recherche d"Information et Ap-
plications) et l"ATALA (Association pour le Traitement Automatique des Langues) ont organiséconjointement leur principale conférence annuelle afin de réunir en un seul lieu les deux communautés
de la recherche d"information (RI) et du traitement automatique des langues (TAL). Organisée parl"IRISA (UMR 6074) et le Centre Inria Bretagne-Atlantique, cette édition s"est déroulée du 14 au 18
mai 2018 à Rennes. Elle a donc regroupé : la 15èmeConférence en Recherche d"Information et Applications (CORIA) ; la 25èmeconférence sur le Traitement Automatique des Langues Naturelles (TALN) ; une rencontre jeunes chercheurs (RJC) commune aux deux communautés correspondant à la13èmeédition de la Rencontre des Jeunes Chercheurs en Recherche d"Information (RJCRI)
et à la 20èmeédition des Rencontre Étudiants Chercheurs en Informatique pour le Traitement
Automatique des Langues (RECITAL) ;
le salon de l"innovation en technologies du langage et de l"information.Des ateliers et tutoriels, un hackathon ainsi qu"un salon de l"innovation à destination des industriels
ont aussi enrichi ce programme (voir plus bas). Les actes de CORIA ne sont pas présents dans ce volume mais sont accessibles àhttp:// www.asso-aria.org/ . Cette année, il y avait un seul format de soumission à CORIA maisdeux formats de présentation pour les articles acceptés. Nous avons acceptés quinze articles pour
une présentation longue et quatre articles pour des présentations courtes. Le taux de sélection pour
les articles en présentation longue est de cinquante pourcent. Vingt-trois villes différentes sont
représentées dans les dix-neuf papiers acceptés; beaucoup de travaux sont issus de collaborations,
dont certaines internationales. Six papiers acceptés ont un auteur d"une organisation située à Toulouse,
cinq d"une organisation parisienne et trois d"une organisation grenobloise. Au niveau international, nous pouvons noter des contributions acceptées provenant du Canada, de Russie et de Tunisie. Nouspouvons également noter des soumissions provenant du Cameroun et de Madagascar. La majorité des
articles proviennent de laboratoires de recherche académiques. Les thèmes abordés à la fois dans
les soumissions et dans les papiers acceptés sont variés tant au niveau des questions de recherche
abordées que des méthodes proposées pour les résoudre et des collections utilisées pour valider ou
évaluer les propositions.
Cette année, vingt deux articles ont été soumis à RJC. Après avoir été chacun évalué par trois
membres du comité de programme, quatre articles ont été retenus pour une présentation orale (soit un
taux de sélection pour présentation orale de 18%), et neuf autres ont été retenus pour une présentation
sous forme de poster (taux de sélection global de 59%). Nous avons ainsi pu donner l"opportunité
à treize jeunes chercheuses et chercheurs, en grande majorité en début de thèse, de présenter leurs
travaux à la communauté.Cette année, TALN inaugurait de nouvelles modalités de soumissions : un appel unique et un seul
format de soumission en article court pouvant être étendu en article long sur proposition du comité
de programme. Parmi les soixante douze articles soumis suite à cet appel, le comité de programme
a proposé à quatorze d"entre eux un passage en format long (soit un taux de sélection de 19,5%)
et en a retenu quarante deux autres en articles courts. Pour effectuer cette sélection, le comité de
programme s"est appuyé sur trois à quatre relectures effectuées par des membres du comité de lecture
(liste donnée ci-après), synthétisées et portées lors de la réunion du comité de programme par les
Figure 1: Nuage de termes extraits des actes de TALN.responsables de domaine. L"ensemble de ce processus s"est déroulé comme les années précédentes
en double aveugle. Les nombre de soumissions et le taux de sélection placent ainsi cette édition
dans les pas de celles des années précédentes, suivant le double objectif d"avoir une conférence
conservant d"une part une sélectivité forte, garante de la qualité des interventions orales, et se voulant,
d"autre part, également un lieu de rencontre le plus ouvert possible à l"expression de l"ensemble de la
communauté, au travers des articles courts.Les thématiques abordées dans les articles retenus dans ces conférences sont variées. Sans surprise,
les tendances de fond que constituent l"apprentissage profond et les plongements lexicaux occupent une part importante des contributions, mais pour autant d"autres approches et de nombreux domainessont explorés. Les sessions ont ainsi porté sur les domaines d"application particuliers (domaines de
spécialité, langues peu dotées), des niveaux d"analyses linguistiques (morphologie, syntaxe, lexique)
ou des tâches spécifiques (résumé automatique, OCR, multimédia, fouille d"opinion). La figure 1
présente un nuage de termes extraits de ces actes1. En complément de ce programme, nous avons eu l"honneur d"accueillir deux oratrices invitéesreconnues internationalement : Dina Demner (NUH, US National Library of Medicine) qui a présenté
des avancées récentes en traitement automatique du langage biomédical, et Claudia Hauff (TU Delft)
qui a effectué un exposé sur l"apprentissage humain en recherche d"information. Il convient également
de citer le salon de l"innovation, qui, avec ses tables rondes, démonstrations, stands d"industriels du
secteur ou de projets de recherche, permet aux industriels et aux chercheurs en TAL et RI, ainsi qu"aux
entreprises en technologie de l"information et plus généralement du numérique, de se rencontrer1
Outils : TermEx, disponible surhttps://allgo.inria.fr, ethttps://www.wordclouds.com.et d"échanger autour des idées de développements actuels et futurs du domaine, de promouvoir
les enjeux et applications du secteur, ainsi que de renforcer la visibilité et l"image des entreprises,
organisations, institutions et projets de recherche auprès de partenaires et clients potentiels. Enfin,
les conférences ont été précédées de deux journées d"ateliers et tutoriels se focalisant sur certaines
thématiques plus précises du TAL et de la RI, portant sur la recherche d"information sémantique
(atelier RISE), la fouille de texte (défi DeFT, cette année sur l"analyse de sentiment, dont les actes
sont proposées dans le second volume du présent ouvrage), l"analyse des données de la recherche
(atelier VaDOR), l"infrastructure de fouille de texte européenne OpenMinTed (tutoriel), le hackathon
sur les fausse nouvelles ou infox (fake news), l"analyse des réseaux sociaux (atelier ALIAS, soutenu
par le GdR CNRS MaDICS), et le data-journalisme (atelier CAJOLE, soutenu par le GdR CNRSMaDICS).
P. Cellier (RJC), A.-L. Ligozat (RJC), J. Mothe (CORIA), P. Sébillot (TALN), V. Claveau (TALN)Mots des Présidents de l"ATALA et de l"ARIACette année, les associations ARIA et ATALA ont souhaité organiser conjointement leur con-
férence à Rennes. L"objectif était de permettre aux chercheurs des deux communautés de se retrouver
en un même lieu et un même temps autour de thématiques qu"ils partagent. En effet, le domaine de la
Recherche d"Information ayant pour objectif d"identifier les informations les plus appropriées par
rapport au besoin d"un usager, il repose sur différentes stratégies parmi lesquelles les modèles de
langue trouvent une place spécifique. De même, dans le domaine du Traitement Automatique desLangues la transition du papier au support électronique nécessite des fonctionnalités se rapprochant
de plus en plus des compétences humaines, phénomène amplifié par le retour sur le devant de la scène
scientifique de l"Intelligence Artificielle, accompagné d"une demande croissante pour des agents infor-
matiques donnant l"illusion de l"autonomie linguistique. Cette coïncidence n"est pas surprenante car
la RI et le TAL partagent dès le début de l"informatique, une histoire commune avec l"IA, n"oublions
pas en effet que les mesures d"évaluation emblématiques de la RI que sont la précision et le rappel
ont été élaborées en 1960, lors des expériences du College of Aeronautics de Cranfield (UK) et qu"à
la même époque, la communauté TAL se constituait autour de la traduction automatique, avec la
naissance de l"ATALA à Paris, en 1959. Pour ce qui concerne l"IA, beaucoup considèrent l"atelier qui
s"est tenu au Dartmouth College (USA) en 1956 comme marquant la naissance du domaine. C"estaussi pendant les années 60 que l"on a vu apparaître les premières implémentations d"algorithmes
neuromimétiques pour l"apprentissage automatique. Nos deux communautés partageant des débuts
contemporaines et étant unies comme par le passé autour de problématiques communes, nous avons
donc fait le choix, cette année, de favoriser les échanges et les présentations communes au travers de
l"organisation de ces conférences conjointes.P. Paroubek (ATALA) & M. Chevalier (ARIA)
Comité d"organisation de CORIA-TALN-RJC
Coordinateur :
Vincent Claveau, CNRS, IRISA, Univ. Rennes
Webmestres :
Clément Dalloux, CNRS, IRISA, Univ. Rennes
Cédric Maigrot, IRISA, Univ Rennes
Resp. démonstrations :
Anne-Lyse Minard, CNRS, IRISA, Univ. Rennes
Resp. ateliers :
Annie Forêt, IRISA, Univ. Rennes
Resp. salon de l"innovation :
Géraldine Damnati, Orange, Lannion
Aleksandra Gerraz, Orange, Lannion
Resp. sponsoring :
Gwénolé Lecorvé, IRISA, ENSSAT, Univ. RennesInfographiste :
Agnès Cottais, IRISA, Rennes
Support administratif :
Élisabeth Lebret, Inria, Rennes
Aurélie Patier, IRISA, Rennes
Membres du comité d"organisation :
Cheikh Brahim El Vaigh, Inria, Rennes
Peggy Cellier, IRISA, INSA Rennes
Guillaume Gravier, IRISA, CNRS, Rennes
Pierre-François Marteau, IRISA, Univ. Bretagne Sud, VannesNicolas Béchet, IRISA, IUT de Vannes
Pascale Sébillot, IRISA, INSA Rennes
Mikaïl Demirdelen, IRISA, INSA Rennes
Ainsi que les équipes techniques et administratives du centre Inria Rennes Bretagne Atlantique.Comité de programme TALN
Présidents du comité de programme :
Pascale Sébillot, IRISA, INSA Rennes
Vincent Claveau, CNRS, IRISA, Univ. Rennes
Responsables de domaine :Maxime Amblard, LORIA, Université de Lor- raineDelphine Bernhard, LiLPa, Université de Stras-
bourgPhilippe Blache, LPL, CNRS
Nathalie Camelin, LIUM, Université du Maine
Iris Eshkol-Taravella, MoDyCo, Université ParisNanterre
Cécile Fabre, ERSS, Université Toulouse 2
Benoît Favre, LIF, Aix Marseille UniversitéOlivier Ferret, CEA LISTThierry Hamon, LIMSI, Université Paris Nord
Philippe Langlais, RALI/DIRO, Univ. de Mon-
tréalEmmanuel Morin, LS2N, Université de Nantes
Philippe Muller, IRIT, Université Paul SabatierAurélie Névéol, LIMSI, CNRS
Didier Schwab, LIG, Université Grenoble Alpes
Xavier Tannier, LIMICS, Université Pierre et
Marie Curie
Comité de lecture :
Stergos Afantenos, IRIT, Université Paul SabatierSalah Ait-Mokhtar, NaverLabs
Alexandre Allauzen, LIMSI, Université Paris-SudJean-Yves Antoine, LI, Université Tours
Frédéric Béchet, LIF, Aix Marseille UniversitéLaurent Besacier, LIG, Université Grenoble
AlpesRomaric Besançon, CEA LIST
Pierrette Bouillon, ETI/TIM/ISSCO, Université
de GenèveChloé Braud, LORIA, CNRS
Marie Candito, LLF, Université Paris Diderot
Thierry Charnois, LIPN, Université Paris 13
Chloé Clavel, Télécom Paris
Guillaume Cleuziou, LIFO, Université OrléansMathieu Constant, ATILF, Université Lorraine
Benoît Crabbé, LLf, Université Paris DiderotBéatrice Daille, LS2N, Université Nantes
Laurence Danlos, LLF, Université Paris Diderot
Marco Dinarelli, LaTTiCe, CNRS
Patrick Drouin, RALI-DIRO, Université de Mon-
tréalThomas François, CENTAL, Université
catholique de LouvainNathalie Friburger, LI, Université Tours
Claire Gardent, LORIA, CNRS
Éric Gaussier, LIG, Université Grenoble AlpesNatalia Grabar, STL, CNRS
Camille Guinaudeau, LIMSI, Université Paris-
SudNabil Hathout, ERSS, Université de Toulouse
Nicolas Hernandez, LS2N, Université de Nantes
Stéphane Huet, LIA, Université d"Avignon et des pays de VaucluseSylvain Kahane, Modyco, Université Paris Ouest
- NanterreOlivier Kraif, LIDILEM, Université Grenoble
AlpesMathieu Lafourcade, LIRMM, Université de
Montpellier
Guy Lapalme, RALI-DIRO, Université de Mon-
tréal Francois Lareau, OLST, Université de MontréalJean-Marc Lecarpentier, Greyc, Université CaenBasse-Normandie
Gwénolé Lecorvé, IRISA, ENSSAT, Université de RennesJoseph Le Roux, LIPN, Université Paris 13
Anaïs Lefeuvre-Halftermeyer, LIFO, Université d"OrléansSébastien Le Maguer,
Anne-Laure Ligozat, LIMSI, ENSIIE
Denis Maurel, LI, Université Tours
Anne-Lyse Minard, CNRS, IRISA, Université de
Rennes
Richard Moot, LIRMM, CNRS
Véronique Moriceau, LIMSI, Université Paris- SudAdeline Nazarenko, LIPN, Université Paris Nord
Jian-Yun Nie, RALI-DIRO, Université de Mon-
tréalYannick Parmentier, LORIA, Université Lorraine
Sylvain Pogodalla, LORIA, INRIA
Thierry Poibeau, LaTTiCe, CNRS
Andrei Popescu-Belis, HEIG VD - School of
Business and Engineering Vaud
Jean-Philippe Prost, LIRMM, Université Mont-
pellier 2Solen Quiniou, LS2N, Université Nantes
Christian Raymond, IRISA, INSA Rennes
Christian Retoré, LIRMM, Université de Mont- pellierMathieu Roche, CIRAD
Sophie Rosset, LIMSI, CNRS
Michel Simard, National Research Council
Canada (NRC)
Ludovic Tanguy, ERSS, Université Toulouse 2
Isabelle Tellier, Lattice, Université Paris 3
Juan-Manuel Torres-Moreno, LIA, Université
d"Avignon et des pays de VaucluseJulien Velcin, ERIC, Université Lyon 2
Guillaume Wisniewski, LIMSI, Université Paris-
SudFrançois Yvon, LIMSI, Université Paris-Sud
Pierre Zweigenbaum, LIMSI, CNRS
Table des matières
Préface
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iiiArticles longs
Étude de la lisibilité des documents de santé avec des méthodes d"oculométrie. Natalia Grabar, Emmanuel Farce et Laurent Sparrow. . . . . . . . . . . . . . . . . . . . . . . . . 3 Alignement de termes de longueur variable en corpus comparables spécialisés.Jingshu Liu, Emmanuel Morin et SebastiAEn Peaea Saldarriaga. . . . . . . . . . . . . . . . . . . . . 19Étude de la reproductibilité des word embeddings : repérage des zones stables et instables dans le lexique.
Bénédicte Pierrejean et Ludovic Tanguy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Modeling infant segmentation of two morphologically diverse languages.Georgia Rengina Loukatou, Sabine Stoll, Damian Blasi et Alejandrina Cristia. . . . . . . . . . . . . 47
Évaluation morphologique pour la traduction automatique: adaptation au français.Franck Burlot et François Yvon. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
Étiquetage en parties du discours de langues peu dotées par spécialisation des plongements lexicaux.
Pierre Magistry, Anne-Laure Ligozat et Sophie Rosset. . . . . . . . . . . . . . . . . . . . . . . . . 75
Modélisation des processus d"acquisition syntaxique par jeux de langage entre agents artificiels.Marie Marcia et Isabelle Tellier. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
MOTS : un outil modulaire pour le résumé automatique.Valentin Nyzam, Christophe Rodrigues et Aurélien Bossard. . . . . . . . . . . . . . . . . . . . . . 101
Ordonnancement de réponses dans les systèmes de dialogue basé sur une similarité contexte/réponse.
Basma El Amel Boussaha, Nicolas Hernandez, Christine Jacquin et Emmanuel Morin. . . . . . . . . 115 Intégration de contexte global par amorçage pour la détection d"événements.Dorian Kodelja, Romaric Besançon et Olivier Ferret. . . . . . . . . . . . . . . . . . . . . . . . . 129
Construction conjointe d"un corpus et d"un classifieur pour les registres de langue en français.Gwénolé Lecorvé, Hugo Ayats, Fournier Benoît, Jade Mekki, Jonathan Chevelu, Delphine Battistelli et
Nicolas Béchet. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
Approche supervisée à base de cellules LSTM bidirectionnelles pour la désambiguïsation lexicale.
Loïc Vial, Benjamin Lecouteux et Didier Schwab. . . . . . . . . . . . . . . . . . . . . . . . . . . 157
Correction automatique d"attachements prépositionnels par utilisation de traits visuels.Sébastien Delecraz, Leonor Becerra-Bonache, Benoît Favre, Alexis Nasr et Frédéric Bechet. . . . . . 171
Décodeur neuronal pour la transcription de documents manuscrits anciens.Adeline Granet, Emmanuel Morin, Harold Mouchère, Solen Quiniou et Christian Viard-Gaudin. . . . . 183
Articles courts
A prototype dependency treebank for Breton.
Francis M. Tyers et Vinit Ravishankar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
Détection automatique de phrases en domaine de spécialité en français.Arthur Boyer et Aurélie Névéol. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
Des représentations continues de mots pour l"analyse d"opinions en arabe: une étude qualitative.
Amira Barhoumi, Nathalie Camelin et Yannick Estève. . . . . . . . . . . . . . . . . . . . . . . . . 215Evaluation automatique de la satisfaction client à partir de conversations de type "chat» par réseaux de
neurones récurrents avec mécanisme d"attention.Jeremy Auguste, Delphine Charlet, Géraldine Damnati, Benoit Favre et Frederic Bechet. . . . . . . . 225
Détection d"erreurs dans des transcriptions OCR de documents historiques par réseaux de neurones
récurrents multi-niveau.Thibault Magallon, Frederic Bechet et Benoit Favre. . . . . . . . . . . . . . . . . . . . . . . . . . 233
Le benchmarking de la reconnaissance d"entités nommées pour le françaisJungyeul Park. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
Une note sur l"analyse du constituant pour le françaisJungyeul Park. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
Interface syntaxe-sémantique au moyen d"une grammaire d"arbres adjoints pour l"étiquetage sémantique
de l"arabeCherifa Ben Khelil, Chiraz Ben Othmane Zribi, Denys Duchier et Yannick Parmentier. . . . . . . . . 261
FinSentiA: Sentiment Analysis in English Financial MicroblogsThomas Gaillat, Annanda Sousa, Manel Zarrouk et Brian Davis. . . . . . . . . . . . . . . . . . . . 271
L"optimisation du plongement de mots pour le français : une application de la classification des phrases
Jungyeul Park. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281
Word2Vec vs LSA pour la détection des erreurs orthographiques produisant un dérèglement sémantique
an arabeChiraz Ben Othmane Zribi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
Analyse de sentiments à base d"aspects par combinaison de réseaux profonds : application à des avis en
Français
Nihel Kooli et Erwan Pigneul. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
Predicting the Semantic Textual Similarity with Siamese CNN and LSTMElvys Linhares Pontes, Stéphane Huet, Andréa Carneiro Linhares et Juan-Manuel Torres-Moreno. . . . 311
L"évaluation des représentations vectorielles de mots en utilisant WordNetNourredine Aliane, Jean-Jacques Mariage et Gilles Bernard. . . . . . . . . . . . . . . . . . . . . . 321Traduction automatique de corpus en anglais annotés en sens pour la désambiguïsation lexicale d"une
langue moins bien dotée, l"exemple de l"arabeMarwa Hadj Salah, Loïc Vial, Hervé Blanchon, Mounir Zrigui et Didier Schwab. . . . . . . . . . . . 329
Détection de mésusages de médicaments dans les réseaux sociauxElise Bigeard, Natalia Grabar et Frantz Thiessard. . . . . . . . . . . . . . . . . . . . . . . . . . 337
Utilisation de Représentations Distribuées de Relations pour la Désambiguïsation d"Entités Nommées
Nicolas Wagner, Romaric Besançon et Olivier Ferret. . . . . . . . . . . . . . . . . . . . . . . . . 347
Traduction automatique du japonais vers le français Bilan et perspectivesRaoul Blin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357
Des pseudo-sens pour améliorer l"extraction de synonymes à partir de plongements lexicauxOlivier Ferret. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365
Annotation automatique des types de discours dans des livres audio en vue d"une oralisation par un système de synthèseAghilas Sini, Elisabeth Delais-Roussarie et Damien Lolive. . . . . . . . . . . . . . . . . . . . . . 375
Impact du prétraitement sur l"Analyse de Sentiment du Dialecte TunisienChedi Bechikh Ali, Hala Mulki et Hatem Haddad. . . . . . . . . . . . . . . . . . . . . . . . . . . 383
Detecting context-dependent sentences in parallel corporaRachel Bawden, Thomas Lavergne et Sophie Rosset. . . . . . . . . . . . . . . . . . . . . . . . . . 393
Predicting failure of a mediated conversation in the context of asymetric role dialoguesRomain Carbou, Delphine Charlet, Géraldine Damnati, Frédéric Landraginand Jean Léon Bouraoui. . 401
Portée de la négation : détection par apprentissage supervisé en français et portugais brésilien
Clément Dalloux, Vincent Claveau, Natalia Grabar et Claudia Moro. . . . . . . . . . . . . . . . . . 409
Le corpus PASTEL pour le traitement automatique de cours magistrauxSalima Mdhaffar, Antoine Laurent et Yannick Estève. . . . . . . . . . . . . . . . . . . . . . . . . 419
Apprendre de la littérature scientifique : Les réseaux de signalisation en biologie systémique
Flavie Landomiel, Cathy Guérineau, Anubhav Gupta, Denis Maurel et Anne Poupon. . . . . . . . . . 427
Détection des couples de termes translittérés à partir d"un corpus parallèle anglais-arabe
Wafa Neifar, Thierry Hamon, Pierre Zweigenbaum, Mariem Ellouze et Lamia Hadrich Belguith. . . . . 437
Utilisation d"une base de connaissances de spécialité et de sens commun pour la simplification de comptes-
rendus radiologiquesLionel Ramadier et Mathieu Lafourcade. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 447
Algorithmes à base d"échantillonage pour l"entraînement de modèles de langue neuronauxMatthieu Labeau et Alexandre Allauzen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 455
Étude Expérimentale d"Extraction d"Information dans des Retranscriptions de RéunionsPegah Alizadeh, Peggy Cellier, Thierry Charnois, Bruno Cremilleux et Albrecht Zimmermann. . . . . . 465
Analyse morpho-syntaxique en présence d"alternance codiqueJosé Carlos Rosales Noeaeez et Guillaume Wisniewski. . . . . . . . . . . . . . . . . . . . . . . . . 473
Simplification de schémas d"annotation : un aller sans retour ?Cyril Grouin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481Apprentissage déséquilibré pour la détection des signaux de l"implication durable dans les conversations
en parfumerieYizhe Wang, Damien Nouvel, Gaºl Patin et Marguerite Leenhardt. . . . . . . . . . . . . . . . . . . 489
A comparative study of word embeddings and other features for lexical complexity detection in FrenchAina Garí Soler, Marianna Apidianaki et Alexandre Allauzen. . . . . . . . . . . . . . . . . . . . . 499
Approche Hybride pour la translitération de l"Arabizi Algérien: Une enquête préliminaireImane Guellil, Azouaou Faical, Fodil Benali, Ala Eddine Hachani et Houda Saadane. . . . . . . . . . 509
Lieu et nom de lieu, du texte vers la carte
Catherine Dominguès. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519
JeuxDeLiens: Word Embeddings and Path-Based Similarity for Entity Linking using the French JeuxDe-Mots Lexical Semantic Network.
Julien Plu, Kevin Cousot, Mathieu Lafourcade, Raphaºl Troncy et Giuseppe Rizzo. . . . . . . . . . . 529
De l"usage réel des emojis à une prédiction de leurs catégories.Gaºl Guibon, Magalie Ochs et Patrice Bellot. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 539
Transfert de ressources sémantiques pour l"analyse de sentiments au niveau des aspects.Caroline Brun. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 547
Apport des dépendances syntaxiques et des patrons séquentiels à l"extraction de relations.Kata GAEbor, Nadège Lechevrel, Isabelle Tellier, Davide Buscaldi, Haifa Zargayouna et Thierry Charnois557
Divergences entre annotations dans le projet UD et leur impact sur l"évaluation des performance d"étiquetage morpho-syntaxique.Guillaume Wisniewski et François Yvon. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 567
Annotation en Actes de Dialogue pour les Conversations en Ligne.Robin Perrotin, Alexis Nasr et Jeremy Auguste. . . . . . . . . . . . . . . . . . . . . . . . . . . . 577
Index des auteurs
585Articles longs
cATALA 20181
Étude de la lisibilité des documents de santé avec des méthodes d"oculométrieNatalia Grabar
1Emmanuel Farce3Laurent Sparrow3
(1) CNRS, UMR 8163 - STL - Savoirs Textes Langage, Univ. Lille, F-59000 Lille, France (2) Univ. Lille, CNRS, UMR 9193 - SCALab, F-59000 Lille, France natalia.grabar@univ-lille3.fr, emmanuel.farce@univ-lille3.fr, laurent.sparrow@univ-lille3.frRÉSUMÉLe domaine médical fait partie de la vie quotidienne pour des raisons de santé, mais la disponibilité
des informations médicales ne garantit pas leur compréhension correcte par les patients. Plusieurs
études ont démontré qu"il existe une difficulté réelle dans la compréhension de contenus médicaux
par les patients. Nous proposons d"exploiter les méthodes d"oculométrie pour étudier ces questions
et pour détecter quelles unités linguistiques posent des difficultés de compréhension. Pour cela, des
textes médicaux en version originale et simplifiée sont exploités. L"oculométrie permet de suivre le
regard des participants de l"étude et de révéler les indicateurs de lecture, comme la durée des fixations,
les régressions et les saccades. Les résultats indiquent qu"il existe une différence statistiquement
significative lors de la lecture des versions originales et simplifiées des documents de santé testés.
ABSTRACTStudy of readability of health documents with eye-tracking methods. Medical area is integral part of our lives due to health concerns, but the availability of medical information does not guarantee its correct understanding by patients. Several studies addressed this issue and pointed out real difficulty in understanding of health contents by patients. We propose to use eye-tracking methods for studying further the issue and for detecting which linguistic units in health documents are problematic. For this, original and simplified versions of medical documentsare exploited. Eye-tracking permits to follow the gaze of participants and to reveal reading indicators
such as duration of fixations, regressions and saccades. The results indicate that there is statistically
significant difference in reading of original and simplified versions of the health documents tested.MOTS-CLÉS:Lisibilité des documents, compréhension, alphabétisation médicale, oculométrie.
KEYWORDS:Readability of documents, understanding, health literacy, eye-tracking.1 IntroductionLe domaine médical est de plus en plus présent dans la vie quotidienne des citoyens, essentiellement
pour des raisons de santé et de soins médicaux mais également parce que ce type d"information
peut être rencontré dans les médias ou la littérature. Avec l"évolution de l"Internet, les informations
médicales deviennent aussi accessibles et disponibles en ligne. Il a été par exemple noté que l"Internet
est devenu la deuxième source d"information pour les patients, en se plaçant après les consultations
chez les médecins (Pletnevaet al., 2011; Fox, 2011). Ainsi, jusqu"à 24 % de la population utilisec
ATALA 20183
l"Internet au moins une fois par jour pour trouver des informations relatives à leur santé et, de
manière plus générale, jusqu"à 80 % de la population recourt à l"Internet pour trouver ce type
d"informations. Néanmoins, la disponibilité des informations de santé ne présume pas qu"elles soient
compréhensibles et correctement utilisées par les patients. Comme tous les domaines de spécialité,
le domaine médical utilise des termes qui véhiculent des notions complexes, comme par exempletensosynovite, arthralgiesoumétatarsophalangien. Cette situation a été observée dans plusieurs
quotesdbs_dbs14.pdfusesText_20