[PDF] analyse morphologique des mots exercices
[PDF] fin de l'ancien régime
[PDF] morphologie flexionnelle et dérivationnelle pdf
[PDF] la morphologie lexicale
[PDF] morphologie des insectes pdf
[PDF] classification des insectes pdf
[PDF] biologie des insectes pdf
[PDF] cours d'entomologie générale pdf
[PDF] systématique des insectes pdf
[PDF] caracteristiques des insectes
[PDF] anatomie et physiologie des insectes pdf
[PDF] tableau classification des arthropodes pdf
[PDF] anomalie morphologique des globules rouges images
[PDF] anomalies des globules rouges pdf
[PDF] anomalies morphologiques des globules rouges
Analyses morphologique et syntaxique
Cours M1 DAC
UPMC
2015/2016Cours TAL M1 DAC2/70Plan du cours
●analyse morpho-syntaxique ●analyse syntaxique ●applications
2015/2016Cours TAL M1 DAC3/70Analyse morphosyntaxique
2015/2016Cours TAL M1 DAC4/70Morphologie en linguistique
●morphologie en linguistique : -domaine qui traite de la structure interne des mots -linguistique structurale : ●notion de morphème = unité linguistique minimale (ie non décomposable) porteuse de sens -unités abstraites ●notion de morphe = (une) forme graphique d'un morphème -allomorphes : variantes d'un même morphème ●libres : assois/assieds ●contextuelles : j'/je (Berhard, 2006)
2015/2016Cours TAL M1 DAC5/70Morphologie en linguistique
●Procédés morphologiques -flexion : déclinaison, conjugaison ●grand/grands/grande, cours/courir -dérivation : formation de nouveaux mots notamment par adjonction d'affixes au radical ●anti-constitu-tionn-elle-ment -composition : combinaison de plusieurs bases pour former un nouveau mot ●tournevis
2015/2016Cours TAL M1 DAC6/70Analyse morphologique
●Racinisation (stemming) -but : supprimer la terminaison des mots ●congugaison/conjuguer → conjug -très utilisé en recherche d'information ●Lemmatisation -but : ramener les variantes flexionnelles d'un même mot à sa forme canonique, le lemme ●conjugue/conjuger/conjugué → conjuguer ●Décomposition -but : segmenter un mot contenant plusieurs autres mots afin de retrouver ses composants -surtout utilisé dans des langues comme l'allemand
2015/2016Cours TAL M1 DAC7/70Analyse morphologique
●Segmentation -but : découper un mot en segment morphémiques ●Analyse morpho-syntaxique -but : analyser chaque mot pour lui associer divers types d'informations telles que la catégorie grammaticale, des traits morphologiques ainsi que le lemme correspondant
2015/2016Cours TAL M1 DAC8/70Catégories morpho-syntaxiques
●catégories de mots -catégories/étiquettes morpho-syntaxiques, tags, parts-of- speech... -cf. grammaire scolaire: noms, verbes, adjectifs, préposition...
2015/2016Cours TAL M1 DAC9/70Classes ouvertes
Classes ferméesClasses ouvertes/fermées
lexicalement
NomsVerbes
PropresCommunsAdjectifs
Adverbes
Prépositions
ParticulesDéterminants
Conjonctions
Pronoms...
... IBM
Italiechat/chats
neigevoir enregistrégros petite lentement de avec off uple du et car il celui-ciNombres
122,312
un
InterjectionsOh Hé
(cours C. Manning)
2015/2016Cours TAL M1 DAC10/70Etiquetage morpho-syntaxique
●les mots ont généralement plus d'une étiquette possible -Le bois vient de France. → le=det, bois=nom -Je le bois. → le = pronom, bois = verbe ●Objectif de l'étiquetage: déterminer l'étiquette pour une instance d'un mot http://corenlp.run/
2015/2016Cours TAL M1 DAC11/70Exemples d'étiquetage et difficultés
●Entrée: Le débat est relancé. -ambiguités: le=det/pro débat=verbe/nom est=verbe/nom ●Sortie: Le/DET débat/NOM est/VER relancé/VER . ●Applications: -synthèse vocale: comment prononcer est ? -recherche dans un corpus: est en tant que nom -entrée d'un analyseur syntaxique
2015/2016Cours TAL M1 DAC12/70Performance d'étiquetage
●Combien d'étiquettes sont correctes ? précision -étiqueteurs sur l'anglais autour de 97% -mais baseline simple = 90% ●chaque mot du lexique → étiquette la plus fréquente ●mots inconnus → noms -beaucoup de mots ne sont pas ambigus ●déterminants, prépositions, ponctuation...
2015/2016Cours TAL M1 DAC13/70Déterminer l'étiquette peut être difficile
pour des humains également ●Un principe décliné dans la loi relative à l'informatique ●Les statistiques ethniques, c'est complètement has been ●La Commission nationale de l'informatique et des libertés (Cnil) étudie au cas par cas les demandes
2015/2016Cours TAL M1 DAC14/70Sources d'information
●Sources d'information -contexte des mots -Le bois vient de France ●DET NOM VER PREP NAM ●PRO VER VER PREP NAM -connaissance des probabilités d'étiquettes des mots
2015/2016Cours TAL M1 DAC15/70Exemples de performance de
modèles ●Quelques précisions (sur l'anglais) -étiquette la plus fréquente: ~90% -trigramme HMM: -maxent: 94% -MEMM: 97% -dépendances bidirectionnelles: 97% -borne supérieure: ~98% (accord interannotateur humain)
2015/2016Cours TAL M1 DAC16/70Etiquetage avec/sans information contextuelle
t0 w0Baseline t0 w0w-1w13 mots
ModèleCaract.Mots InconnusPhrases
Baseline 56 80593,69%82,61%26,74%
3mots239 76796,57%86,78%48,27%
mots uniquement ~ modèle HMM
2015/2016Cours TAL M1 DAC17/70Analyse syntaxique
2015/2016Cours TAL M1 DAC18/70Objectif de l'analyse syntaxique
●Analyse syntaxique traditionnelle -Généralement fondée sur le paradigme génératif de
Chomsky
-Objet = générer tous et seulement les énoncés possiblesquotesdbs_dbs2.pdfusesText_2