PDFprof.com Search Engine



Introduction au TALN et `a l'ingénierie linguistique université de Lille3

PDF
Images
List Docs
  • Quelle est l’introduction à la linguistique ?

    Dans les termes les plus généraux, la linguistique est l'étude scientifique du langage et de sa structure .
    La linguistique peut être décomposée en de nombreuses branches, notamment la sociolinguistique, la dialectologie, la psycholinguistique, la linguistique informatique, la linguistique historique, la linguistique appliquée, la sémiotique, la syntaxe, etc.

  • Qu’est-ce que l’introduction à la langue ?

    langage, système de symboles conventionnels parlés, manuels (signés) ou écrits au moyen desquels les êtres humains, en tant que membres d'un groupe social et participants à sa culture, s'expriment .

  • Qu'est-ce que les notes linguistiques ?

    ‣ linguistique : l'étude du langage humain naturel et de tous les aspects du comportement humain, de la physiologie et de la culture qui interagissent avec le langage .
    Remarques.
    La linguistique s'intéresse aux modèles que l'on retrouve dans le langage humain et à tous les aspects du comportement humain qui interagissent avec la capacité des êtres humains à utiliser le langage.

  • « La linguistique est une science qui étudie l'origine, l'organisation et. et les règles de grammaire ».

Introduction au TALN et `a l'ingénierie linguistique université de Lille3
Traitement Automatique du Langage Naturel (TALN) Outils d
Traitement des eaux potables
Traitement de l'eau II
Cours de Traitement des eaux
Traitement de l'eau
Traitement et épuration des eaux
La production et le traitement des eaux destinées à l'alimentation et
Le traitement des eaux usées
Conservation et traitement de l'eau à domicile
Mecaniquepdf
Next PDF List

Introduction au TALN et `a l'ingénierie linguistique université de Lille3

Introduction au TALN et `a l"ing´enierie linguistiqueuniversit´e de Lille3I.TellierTable des mati`eres1 Introduction12 Traitement Automatique du Langage Naturel 31 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 Histoires crois´ees de la linguistique et de l"informatique . . . . . . . . 43 Les niveaux d"analyse du langage . . . . . . . . . . . . . . . . . . . . 94 La chaˆıne de traitements "standard" . . . . . . . . . . . . . . . . . .125 Sites Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 Aspects acoustiques du langage151 Description linguistique . . . . . . . . . . . . . . . . . . . . . . . . . . 151.

1) Phon´etique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151. 2) Phonologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.

3) Autres aspects acoustiques . . . . . . . . . . . . . . . . . . . . 172 Mod´elisation informatique . . . . . . . . . . . . . . . . . . . . . . . . 182.

1) Domaines et probl`emes . . . . . . . . . . . . . . . . . . . . . . 182. 2) Outils formels ou statistiques utilis´es . . . . . . . . . . . . 202.

3) Sites Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 Morph`emes, morphologie221 Description linguistique . . . . . . . . . . . . . . . . . . . . . . . . . . 221.

1) Probl`emes avec la notion de "mot" . . . . . . . . . . . . . . . 221. 2) Les diff´erents types de morph`emes . . . . . . . . . . . . . . . . 231. 3) Combinaisons de morph`emes . . . . . . . . . . . . . . . . . . . 241.

4) Les informations associ´ees `a une unit´e lexicale . . . . . . . 262 Mod´elisation informatique . . . . . . . . . . . . . . . . . . . . . . . . 272.

1) Arbre `a lettres . . . . . . . . . . . . . . . . . . . . . . . . . . 282. 2) Automates finis . . . . . . . . . . . . . . . . . . . . . . . . . . 292. 3) Expressions r´eguli`eres . . . . . . . . . . . . . . . . . . . . . . 312.

4) Sites Web et programmes gratuits . . . . . . . . . . . . . . . . 325 Le niveau de la syntaxe331 Description linguistique . . . . . . . . . . . . . . . . . . . . . . . . . . 331.

1) De l"analyse distributionnelle `a la notion de grammaticalit´e . . 331. 2) Des phrases aux propositions . . . . . . . . . . . . . . . . . . 341. 3) Structures syntaxiques . . . . . . . . . . . . . . . . . . . . . . 361. 4) Ambiguit´es . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38i1.

5) Probl`emes avec la structuration arborescente . . . . . . . . 412 Mod´elisation informatique . . . . . . . . . . . . . . . . . . . . . . . . 432.

1) Le retour des automates finis . . . . . . . . . . . . . . . . . . 432. 2) Limites des automates finis . . . . . . . . . . . . . . . . . . . 452. 3) R´eseaux de Transitions R´ecursifs . . . . . . . . . . . . . . . . 482. 4) Grammaires formelles . . . . . . . . . . . . . . . . . . . . . . . 502. 5) Transformation des automates et des RTRs en grammaires 522. 6) Hi´erarchie de Chomsky . . . . . . . . . . . . . . . . . . . . . . 542. 7) Position des langues naturelles dans la hi´erarchie de Chomsky 562. 8) Autres formalismes . . . . . . . . . . . . . . . . . . . . . . . . 582.

9) Sites Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 596 La s´emantique lexicale601 Description linguistique (et autres) . . . . . . . . . . . . . . . . . 601.

1) Des choses aux mots . . . . . . . . . . . . . . . . . . . . . . . 611. 2) Sens et r´ef´erence . . . . . . . . . . . . . . . . . . . . . . . . . 621. 3) D´ecomposition en primitives "s´emiques" . . . . . . . . . . 631. 4) D´ecomposition des actions selon Schank . . . . . . . . . . . . 651. 5) Analyses par prototypes et proximit´es . . . . . . . . . . . . . 661. 6) Organisations hi´erarchiques . . . . . . . . . . . . . . . . . . . 671.

7) Critiques g´en´erales et alternatives . . . . . . . . . . . . . . 692 Mod´elisation informatique . . . . . . . . . . . . . . . . . . . . . . . . 712.

1) Critique ´epist´emologique . . . . . . . . . . . . . . . . . . . . . 712.

2) Sites Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 727 La s´emanique propositionnelle741 Description linguistique . . . . . . . . . . . . . . . . . . . . . . . . . . 741.

1) Principe de compositionnalit´e . . . . . . . . . . . . . . . . . . 741. 2) Pr´edicats verbaux et rˆoles th´ematiques . . . . . . . . . . . 761.

3) Th´eorie des mod`eles . . . . . . . . . . . . . . . . . . . . . . . 772 Mod´elisation informatique . . . . . . . . . . . . . . . . . . . . . . . . 802.

1) Les origines de la logique . . . . . . . . . . . . . . . . . . . . . 802. 2) Logique des pr´edicats du 1er ordre . . . . . . . . . . . . . . . 822. 3) Exemple r´ecapitulatif . . . . . . . . . . . . . . . . . . . . . . . 842. 4) Autres mod`eles . . . . . . . . . . . . . . . . . . . . . . . . . . 862. 5) Probl`emes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 882.

6) Sites Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 908 Fouille de textes911 Ressources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 922 Repr´esentations d"un texte . . . . . . . . . . . . . . . . . . . . . . . . 933 L"apprentissage automatique . . . . . . . . . . . . . . . . . . . . . . . 954 Tˆaches principales de la fouille de textes . . . . . . . . . . . . . . 975 Autres tˆaches plus complexes . . . . . . . . . . . . . . . . . . . . . . 1006 Sites Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1029 Conclusion103ii10 Bibliographie1041 Ouvrages orient´es "sciences humaines" . . . . . . . . . . . . . . . 1042 Ouvrages plus orient´es TALN ou fouille de textes . . . . . . . . . 104iiiChapitre 1IntroductionIl ne leur manque que la parole! Ce que l"on disait volontiersdes animaux decompagnie il y a quelques ann´ees, on pourrait le formuler maintenant `a l"inten-tion des ordinateurs, nos compagnons familiers d"aujourd"hui.

Le rˆeve de dialoguer"naturellement" avec des machines comme avec ses semblables est bien ancr´e dansl"imaginaire occidental.

Tous les films de science-fiction se font l"echo de ce fantasme :impossible d"imaginer un robot un tant soit peu ´evolu´e quin"aurait pas la capacit´ede parler.

En 1950, Turing, le p`ere fondateur de l"informatique, pr´edit que "dans 50ans", les ordinateurs auront acquis cette capacit´e.

L"´ech´eance est pass´ee sans quela pr´ediction ne se r´ealise.

Pourtant, dans le domaine de la technologie num´erique,beaucoup de rˆeves apparemment plus fous ont ´et´e largement d´epass´es.

Aujourd"hui,les ordinateurs battent les grands maˆıtres d"´echecs `a plate couture, mais ils n"onttoujours pas les comp´etences langagi`eres d"un enfant de 5ans.

Comment cela sefait-il? En quoi la capacit´e de langage est-elle si difficile`a "programmer"? C"est `al"exploration de ces questions que nous invitons dans ce document.Les travaux de recherche sur le sujet n"ont pourtant pas manqu´e, et ceci de-puis les tout d´ebuts de l"informatique.

Une des premi`eresconf´erences r´eunissant lespionniers de cette discipline, dans les ann´ees 50, portaitsur la "traduction auto-matique".

Le contexte politique ´etait propice au d´eveloppement de la th´ematique :l"´epoque ´etait `a la guerre froide et intercepter, d´ecoder, traduire automatiquementles messages que s"´echangeaient les "rouges" entre eux ´etait pour les Am´ericains unobjectif strat´egique.

Mais l"histoire de ces tentatives est rest´ee longtemps une suc-cession d"´echecs et de d´econvenues.

C"est l"histoire, enfait, d"une prise de consciencepour les informaticiens de ce que les linguistes savaient depuis longtemps : l"extrˆemecomplexit´e des langues naturelles.Dans les ann´ees 70 et 80, les "syst`emes experts" (programmes qui simulent, sousla forme de r`egles, les connaissances d"un expert, pour reproduire son mode de rai-sonnement) sont `a l"honneur.

Ils font les beaux jours de "l"intelligence artificielle"dont ils sont alors la principale vitrine.

Le th`eme g´en´eral du "traitement automatiquedu langage naturel" (TALN), lui, franchit plus rarement lesfronti`eres des labora-toires.

Mais il f´ed`ere d´ej`a les efforts de nombeux chercheurs.

A l"image de ce qui sefait avec les "syst`emes experts", on essait alors de ramener l"usage du langage `a desr`egles symboliques.

Beaucoup de concepts et de mod`eles ´evoqu´es dans les chapitresqui suivent datent de cette ´epoque.

1) Les ann´ees 90 voient arriver des changements consid´erables : banalisation des or-dinateurs personnels, avec des capacit´es de stockage et detraitement en progressionexponentielle, apparition du Web.

L""ing´enierie linguistique" naˆıt `a ce moment-l`a.Nous d´esignerons par ce terme la branche "utilitaire" des recherches en TALN, cellesqui donnent lieu `a des programmes applicables `a des donn´ees r´eelles.

Ces donn´ees nemanquent pas.

Les textes repr´esentent en effet une grande part de ce qui encombredepuis lors la m´emoire des ordinateurs personnels, et constituent l"essentiel de ce quiest disponible sur le Web (l"´emergence des sons et des images est plus r´ecente).

Toutce qui peut aider `a classer ou traiter les documents textuels, `a extraire l"informationqu"ils contiennent, devient un enjeu majeur.

L"ing´enierie linguistique se met ainsi auservice de la "fouille de textes".

Les approches symboliques laissent souvent la place`a des m´ethodes statistiques.Dans ce document, nous allons tout d"abord, dans le chapitre2, parcourir unpeu plus pr´ecis´ement l"histoire des liens entre la linguistique et l"informatique, eninsistant notamment sur les "niveaux d"analyse" auxquels on peut soumettre lelangage.

Les chapitres 3 `a 7 passent ensuite en revue chacunde ces niveaux.

Pourchacun d"eux, nous adoptons une stucture commune avec une partie "descriptionlinguistique", puis une sur sa "mod´elisation informatique".

Une liste de ressourcesrelevant de l"ing´enierie linguistique (sites Web ou programmes gratuits) mettantoeuvre certains de ces mod`eles clˆot chaque chapitre.Le chapitre 8 est un peu `a part.

Il pr´esente quelques-unes des tˆaches principales dela "fouille de textes" qui, sans ˆetre des tˆaches de traitement de la langue proprementdˆıtes, b´en´eficient de techniques issues de l"ing´enierie linguistiques.

Tout le parcoursdes recherches en TALN qui aura ´et´e ´evoqu´e auparavant prendra alors un autre sens.Peut-ˆetre n"aurons-nous pas de si tˆot des ordinateurs de compagnie avec qui papoter,mais certains outils d"ing´enierie linguistique, eux, sont d"ors et d´ej`a int´egr´es dansdes programmes informatiques que nous utilisons tous les jours 2Chapitre 2Traitement Automatique duLangage Naturel1 IntroductionToutes les soci´et´es humaines d´ecouvertes de par le mondepratiquent au moinsune langue.

On en d´enombre actuellement environ 5 000 diff´erentes, dont beaucoupsont en voie de disparition faute de locuteurs.

Mˆeme si l"acquisition du vocabulairese poursuit tout au long de la vie, tout ˆetre humain normalement constitu´e et ins´er´edepuis sa naissance dans un groupe social est capable, vers l"ˆage de 5 ans (donc bienavant qu"il ne maˆıtrise le "raisonnement"), de tenir une conversation courante danssa langue maternelle.

Aucun singe -et aucun ordinateur!- nepeut en faire autant.Parler est bien encore, `a l"heure actuelle, "le propre de l"homme".Pour d´esigner les langues humaines, on parle maintenant des "langues naturel-les", parce que ce sont en quelque sorte des cr´eations collect