Dans les termes les plus généraux, la linguistique est l'étude scientifique du langage et de sa structure .
La linguistique peut être décomposée en de nombreuses branches, notamment la sociolinguistique, la dialectologie, la psycholinguistique, la linguistique informatique, la linguistique historique, la linguistique appliquée, la sémiotique, la syntaxe, etc.
langage, système de symboles conventionnels parlés, manuels (signés) ou écrits au moyen desquels les êtres humains, en tant que membres d'un groupe social et participants à sa culture, s'expriment .
‣ linguistique : l'étude du langage humain naturel et de tous les aspects du comportement humain, de la physiologie et de la culture qui interagissent avec le langage .
Remarques.
La linguistique s'intéresse aux modèles que l'on retrouve dans le langage humain et à tous les aspects du comportement humain qui interagissent avec la capacité des êtres humains à utiliser le langage.
Introduction au TALN et `a l"ing´enierie linguistiqueuniversit´e de Lille3I.TellierTable des mati`eres1 Introduction12 Traitement Automatique du Langage Naturel 31 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 Histoires crois´ees de la linguistique et de l"informatique . . . . . . . . 43 Les niveaux d"analyse du langage . . . . . . . . . . . . . . . . . . . . 94 La chaˆıne de traitements "standard" . . . . . . . . . . . . . . . . . .125 Sites Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 Aspects acoustiques du langage151 Description linguistique . . . . . . . . . . . . . . . . . . . . . . . . . . 151.
1) Phon´etique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151. 2) Phonologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.3) Autres aspects acoustiques . . . . . . . . . . . . . . . . . . . . 172 Mod´elisation informatique . . . . . . . . . . . . . . . . . . . . . . . . 182.
1) Domaines et probl`emes . . . . . . . . . . . . . . . . . . . . . . 182. 2) Outils formels ou statistiques utilis´es . . . . . . . . . . . . 202.3) Sites Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 Morph`emes, morphologie221 Description linguistique . . . . . . . . . . . . . . . . . . . . . . . . . . 221.
1) Probl`emes avec la notion de "mot" . . . . . . . . . . . . . . . 221. 2) Les diff´erents types de morph`emes . . . . . . . . . . . . . . . . 231. 3) Combinaisons de morph`emes . . . . . . . . . . . . . . . . . . . 241.4) Les informations associ´ees `a une unit´e lexicale . . . . . . . 262 Mod´elisation informatique . . . . . . . . . . . . . . . . . . . . . . . . 272.
1) Arbre `a lettres . . . . . . . . . . . . . . . . . . . . . . . . . . 282. 2) Automates finis . . . . . . . . . . . . . . . . . . . . . . . . . . 292. 3) Expressions r´eguli`eres . . . . . . . . . . . . . . . . . . . . . . 312.4) Sites Web et programmes gratuits . . . . . . . . . . . . . . . . 325 Le niveau de la syntaxe331 Description linguistique . . . . . . . . . . . . . . . . . . . . . . . . . . 331.
1) De l"analyse distributionnelle `a la notion de grammaticalit´e . . 331. 2) Des phrases aux propositions . . . . . . . . . . . . . . . . . . 341. 3) Structures syntaxiques . . . . . . . . . . . . . . . . . . . . . . 361. 4) Ambiguit´es . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38i1.5) Probl`emes avec la structuration arborescente . . . . . . . . 412 Mod´elisation informatique . . . . . . . . . . . . . . . . . . . . . . . . 432.
1) Le retour des automates finis . . . . . . . . . . . . . . . . . . 432. 2) Limites des automates finis . . . . . . . . . . . . . . . . . . . 452. 3) R´eseaux de Transitions R´ecursifs . . . . . . . . . . . . . . . . 482. 4) Grammaires formelles . . . . . . . . . . . . . . . . . . . . . . . 502. 5) Transformation des automates et des RTRs en grammaires 522. 6) Hi´erarchie de Chomsky . . . . . . . . . . . . . . . . . . . . . . 542. 7) Position des langues naturelles dans la hi´erarchie de Chomsky 562. 8) Autres formalismes . . . . . . . . . . . . . . . . . . . . . . . . 582.9) Sites Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596 La s´emantique lexicale601 Description linguistique (et autres) . . . . . . . . . . . . . . . . . 601.
1) Des choses aux mots . . . . . . . . . . . . . . . . . . . . . . . 611. 2) Sens et r´ef´erence . . . . . . . . . . . . . . . . . . . . . . . . . 621. 3) D´ecomposition en primitives "s´emiques" . . . . . . . . . . 631. 4) D´ecomposition des actions selon Schank . . . . . . . . . . . . 651. 5) Analyses par prototypes et proximit´es . . . . . . . . . . . . . 661. 6) Organisations hi´erarchiques . . . . . . . . . . . . . . . . . . . 671.7) Critiques g´en´erales et alternatives . . . . . . . . . . . . . . 692 Mod´elisation informatique . . . . . . . . . . . . . . . . . . . . . . . . 712.
1) Critique ´epist´emologique . . . . . . . . . . . . . . . . . . . . . 712.2) Sites Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 727 La s´emanique propositionnelle741 Description linguistique . . . . . . . . . . . . . . . . . . . . . . . . . . 741.
1) Principe de compositionnalit´e . . . . . . . . . . . . . . . . . . 741. 2) Pr´edicats verbaux et rˆoles th´ematiques . . . . . . . . . . . 761.3) Th´eorie des mod`eles . . . . . . . . . . . . . . . . . . . . . . . 772 Mod´elisation informatique . . . . . . . . . . . . . . . . . . . . . . . . 802.
1) Les origines de la logique . . . . . . . . . . . . . . . . . . . . . 802. 2) Logique des pr´edicats du 1er ordre . . . . . . . . . . . . . . . 822. 3) Exemple r´ecapitulatif . . . . . . . . . . . . . . . . . . . . . . . 842. 4) Autres mod`eles . . . . . . . . . . . . . . . . . . . . . . . . . . 862. 5) Probl`emes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 882.6) Sites Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 908 Fouille de textes911 Ressources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 922 Repr´esentations d"un texte . . . . . . . . . . . . . . . . . . . . . . . . 933 L"apprentissage automatique . . . . . . . . . . . . . . . . . . . . . . . 954 Tˆaches principales de la fouille de textes . . . . . . . . . . . . . . 975 Autres tˆaches plus complexes . . . . . . . . . . . . . . . . . . . . . . 1006 Sites Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1029 Conclusion103ii10 Bibliographie1041 Ouvrages orient´es "sciences humaines" . . . . . . . . . . . . . . . 1042 Ouvrages plus orient´es TALN ou fouille de textes . . . . . . . . . 104iiiChapitre 1IntroductionIl ne leur manque que la parole! Ce que l"on disait volontiersdes animaux decompagnie il y a quelques ann´ees, on pourrait le formuler maintenant `a l"inten-tion des ordinateurs, nos compagnons familiers d"aujourd"hui.
Le rˆeve de dialoguer"naturellement" avec des machines comme avec ses semblables est bien ancr´e dansl"imaginaire occidental.
Tous les films de science-fiction se font l"echo de ce fantasme :impossible d"imaginer un robot un tant soit peu ´evolu´e quin"aurait pas la capacit´ede parler.
En 1950, Turing, le p`ere fondateur de l"informatique, pr´edit que "dans 50ans", les ordinateurs auront acquis cette capacit´e.
L"´ech´eance est pass´ee sans quela pr´ediction ne se r´ealise.Pourtant, dans le domaine de la technologie num´erique,beaucoup de rˆeves apparemment plus fous ont ´et´e largement d´epass´es.
Aujourd"hui,les ordinateurs battent les grands maˆıtres d"´echecs `a plate couture, mais ils n"onttoujours pas les comp´etences langagi`eres d"un enfant de 5ans.
Comment cela sefait-il? En quoi la capacit´e de langage est-elle si difficile`a "programmer"? C"est `al"exploration de ces questions que nous invitons dans ce document.Les travaux de recherche sur le sujet n"ont pourtant pas manqu´e, et ceci de-puis les tout d´ebuts de l"informatique.
Une des premi`eresconf´erences r´eunissant lespionniers de cette discipline, dans les ann´ees 50, portaitsur la "traduction auto-matique".
Le contexte politique ´etait propice au d´eveloppement de la th´ematique :l"´epoque ´etait `a la guerre froide et intercepter, d´ecoder, traduire automatiquementles messages que s"´echangeaient les "rouges" entre eux ´etait pour les Am´ericains unobjectif strat´egique.
Mais l"histoire de ces tentatives est rest´ee longtemps une suc-cession d"´echecs et de d´econvenues.
C"est l"histoire, enfait, d"une prise de consciencepour les informaticiens de ce que les linguistes savaient depuis longtemps : l"extrˆemecomplexit´e des langues naturelles.Dans les ann´ees 70 et 80, les "syst`emes experts" (programmes qui simulent, sousla forme de r`egles, les connaissances d"un expert, pour reproduire son mode de rai-sonnement) sont `a l"honneur.
Ils font les beaux jours de "l"intelligence artificielle"dont ils sont alors la principale vitrine.Le th`eme g´en´eral du "traitement automatiquedu langage naturel" (TALN), lui, franchit plus rarement lesfronti`eres des labora-toires.
Mais il f´ed`ere d´ej`a les efforts de nombeux chercheurs.A l"image de ce qui sefait avec les "syst`emes experts", on essait alors de ramener l"usage du langage `a desr`egles symboliques.
Beaucoup de concepts et de mod`eles ´evoqu´es dans les chapitresqui suivent datent de cette ´epoque.
1) Les ann´ees 90 voient arriver des changements consid´erables : banalisation des or-dinateurs personnels, avec des capacit´es de stockage et detraitement en progressionexponentielle, apparition du Web.
L""ing´enierie linguistique" naˆıt `a ce moment-l`a.Nous d´esignerons par ce terme la branche "utilitaire" des recherches en TALN, cellesqui donnent lieu `a des programmes applicables `a des donn´ees r´eelles.
Ces donn´ees nemanquent pas.Les textes repr´esentent en effet une grande part de ce qui encombredepuis lors la m´emoire des ordinateurs personnels, et constituent l"essentiel de ce quiest disponible sur le Web (l"´emergence des sons et des images est plus r´ecente).
Toutce qui peut aider `a classer ou traiter les documents textuels, `a extraire l"informationqu"ils contiennent, devient un enjeu majeur.
L"ing´enierie linguistique se met ainsi auservice de la "fouille de textes".Les approches symboliques laissent souvent la place`a des m´ethodes statistiques.Dans ce document, nous allons tout d"abord, dans le chapitre2, parcourir unpeu plus pr´ecis´ement l"histoire des liens entre la linguistique et l"informatique, eninsistant notamment sur les "niveaux d"analyse" auxquels on peut soumettre lelangage.
Les chapitres 3 `a 7 passent ensuite en revue chacunde ces niveaux.Pourchacun d"eux, nous adoptons une stucture commune avec une partie "descriptionlinguistique", puis une sur sa "mod´elisation informatique".
Une liste de ressourcesrelevant de l"ing´enierie linguistique (sites Web ou programmes gratuits) mettantoeuvre certains de ces mod`eles clˆot chaque chapitre.Le chapitre 8 est un peu `a part.
Il pr´esente quelques-unes des tˆaches principales dela "fouille de textes" qui, sans ˆetre des tˆaches de traitement de la langue proprementdˆıtes, b´en´eficient de techniques issues de l"ing´enierie linguistiques.
Tout le parcoursdes recherches en TALN qui aura ´et´e ´evoqu´e auparavant prendra alors un autre sens.Peut-ˆetre n"aurons-nous pas de si tˆot des ordinateurs de compagnie avec qui papoter,mais certains outils d"ing´enierie linguistique, eux, sont d"ors et d´ej`a int´egr´es dansdes programmes informatiques que nous utilisons tous les jours 2Chapitre 2Traitement Automatique duLangage Naturel1 IntroductionToutes les soci´et´es humaines d´ecouvertes de par le mondepratiquent au moinsune langue.
On en d´enombre actuellement environ 5 000 diff´erentes, dont beaucoupsont en voie de disparition faute de locuteurs.
Mˆeme si l"acquisition du vocabulairese poursuit tout au long de la vie, tout ˆetre humain normalement constitu´e et ins´er´edepuis sa naissance dans un groupe social est capable, vers l"ˆage de 5 ans (donc bienavant qu"il ne maˆıtrise le "raisonnement"), de tenir une conversation courante danssa langue maternelle.
Aucun singe -et aucun ordinateur!- nepeut en faire autant.Parler est bien encore, `a l"heure actuelle, "le propre de l"homme".Pour d´esigner les langues humaines, on parle maintenant des "langues naturel-les", parce que ce sont en quelque sorte des cr´eations collect