[PDF] Médecine grecque et médecine arabe: transmission du savoir entre





Previous PDF Next PDF



Apport de la diacritisation de lanalyse morphosyntaxique de larabe

08-Jun-2012 Apport of Diacritization in Arabic Morpho-Syntactic Analysis ... langue arabe se caractérise par l'absence des voyelles courtes ...



Lapport du monde arabe à la science - 5 à 7 de lAcadémie des

03-Dec-2019 ... -sciences.fr/fr/Seances-publiques/5-a-7-apport-sciences-arabes.html ... comprendre que l'intérêt pour cette science en arabe a été en ...



38 LINFLUENCE ARABE DANS LE SUD-EST DE MADAGASCAR L

graphie d'origine arabe. Naturellement il y a lieu d'ecartor tout autre apport



LAPPORT DE LA TRADUCTION ARABE DE STÉPHANE À L

L'APPORT DE LA TRADUCTION ARABE DE. STÉPHANE À L'ÉTABLISSEMENT DU TEXTE GREC. DU DE MATERIA MEDICA DE DIOSCORIDE. Marie Cronier.



LApport scientifique arabe à travers les grandes figures de lépoque

Ainsi une large part du volume IV de la nouvelle édition de cette histoire est consacrée à l'apport de l'Islam et du monde musulman aux progrès scientifiques



Traitement Automatique des Langues et Recherche dInformation en

03-May-2010 d'Information en langue arabe dans un domaine de spécialité: Apport des connaissances morphologiques et syntaxiques pour l'indexation.



Indépendance et Tentatives de Regroupement des Pays Arabes du

manière approfondie du nationalisme arabe et des tentatives durant tout le moyen-âge de l'apport des Arabes à la civilisa humaine.



Observations sur les études philologiques en arabe classique

Or la grammaire arabe que l'on possede pour l'arabe classique a cette pas de l'apport de base des grammairiens arabes; ils sont plut6t & con-.



Médecine grecque et médecine arabe: transmission du savoir entre

27-Nov-2017 Apport des sciences arabes. Médecine grecque et médecine arabe: transmission du savoir entre Orient et Occident.



Lindustrie Sidérurgique dans le Monde Arabe

L'Union compte près de 80 sociétés Membres de 15 Pays Arabes Quel est l'apport de l'Union Arabe du Fer et de l'Acier dans le.



Searches related to apport en arabe PDF

Les arabes et en particulier les musulmans se sont intéressés à l’astronomie pour des raisons très pratiques : • Se repérer dans le désert pour les populations nomades ou en mer Mais surtout pour motif religieux : •Déterminer les heures des cinq prières quotidiennes

Combien de mots couramment utilisés en français portent la marque de l’arabe?

Plus de 500 mots couramment utilisés en français portent la marque de l’arabe. Entretien | Alcool, mousson, douane... La langue arabe a irrigué le français, en particulier depuis le Moyen ge, selon des voies parfois surprenantes, révélées par le lexicographe Roland Laffitte.

Quels sont les inconvénients de la langue arabe ?

L’inconvénient avec la langue arabe, c’est qu’elle utilise un alphabet très différent du français, ce qui rend les communications parfois complexes. Heureusement, des outils existent pour pouvoir écrire en arabe, sur téléphone comme sur ordinateur.

Comment pratiquer l’arabe?

Pour ce faire, pratiquez votre arabe lorsque vous vous exprimez. Vous pouvez aussi converser avec des natifs ou intégrer des groupes de discussion. Enfin, n’hésitez pas à vous informer sur les types d’exercices, les consignes, etc.

Combien de mots portent la marque de la langue arabe?

Le lexicographe Roland Laffitte estime qu’environ 400 à 800 mots couramment utilisés en français portent la marque de la langue arabe. Comment ces mots sont-ils arrivés dans notre langue ?

École Centrale de Nantes

Université de Nantes

École des Mines de Nantes

ÉCOLE DOCTORALE STIM

" SCIENCES ET TECHNOLOGIES DE L'I

NFORMATION ET DES MATÉRIAUX »

Année 2008

N o attribué par la bibliothèqu e

Traitement Automatique des Langues et Recherche

d'Information en langue arabe dans un domaine de spécialité : Apport des connaissances morphologiques et syntaxiques pour l'indexation

THÈSE DE DOCTORAT

Discipline : INFORMATIQUE

Présentée

et soutenue publiquement par

Siham Boulaknadel

Le 18 Octobre 2008, devant le jury ci dessous

Président : José Martinez LINA, Univ.Nantes Rapporteurs : Josiane Mothe, Professeur IRIT, Univ.Toulouse

Abdelfatah Hamdani, Professeur IERA

Examinateurs : Béatrice Daille, Professeur LINA, Univ.Nantes Driss Aboutajdine, Professeur FSR, Univ.Mohammed V Elqadi Abderrahim, Professeur Assistant EST, Meknès Directeur de thèse : Pr. Béatrice Daille / Pr. Driss Aboutajdine Laboratoire: LABORATOIRE D'INFORMATIQUE DE NANTES ATLANTIQUE.

CNRS FRE 2729. 2, rue de la Houssinière, BP 92 208 . 44 322 Nantes, CEDEX 3. N° ED 503- 020

favet neptunus eunti

TRAITEMENT AUTOMATIQUE DES LANGUES ET

RECHERCHE D"INFORMATION EN LANGUE ARABE :

APPORT DES CONNAISSANCES MORPHOLOGIQUES ET

SYNTAXIQUES POUR L"INDEXATION

SihamBOULAKNADEL

Université de Nantes

SihamBOULAKNADEL

Traitement automatique des langues et Recherche d"information en Langue arabe : apport des connaissances morphologiques et syntaxiques pour l"indexation xxiii

Ce document a été préparé avec L

ATEX2"et la classethese-LINAversion 0.92 de l"as-

sociation de jeunes chercheurs en informatique LOGIN, Université de Nantes. La classe these-LINAest disponible à l"adresse :

Impression : memoire.tex - 2/2/2009 - 12:25

Révision pour la classe : $Id: these-LINA.cls,v 1.3 2000/11/19 18:30:42 fred Exp

Résumé

La Recherche d"Information a pour objectif de fournir à un utilisateur un accès facile à l"information

qui l"intéresse, cette information étant située dans une masse de documents textuels. Afin d"atteindre

cet objectif, un système de recherche d"information doit représenter, stocker et organiser l"information,

puis fournir à l"utilisateur les éléments correspondant au besoin d"information exprimé par sa requête.

La plupart des systèmes de recherche d"information (SRI) utilisent des termes simples pour indexer

et retrouver des documents. Cependant, cette représentation n"est pas assez précise pour représenter le

contenu des documents et des requêtes, du fait de l"ambiguïté des termes isolés de leur contexte. Une

solution à ce problème consiste à utiliser des termes complexes à la place de termes simples isolés.

Cette approche se fonde sur l"hypothèse qu"un terme complexe est moins ambigu qu"un terme simple

isolé. Notre thèse s"inscrit dans le cadre de la recherche d"information dans un domaine de spécialité

en langue arabe. L"objectif de notre travail a été d"une part, d"identifier les termes complexes présents

dans les requêtes et les documents. D"autre part, d"exploiter pleinement la richesse de la langue en

combinant plusieurs connaissances linguistiques appartenant aux niveaux morphologique et syntaxique, et de montrer comment l"apport de connaissances morphologiques et syntaxiques permet d"améliorer

l"accès à l"information. Ainsi, nous avons proposé une plate-forme intégrant divers composants dans le

domaine public; elle conduit à montrer l"apport significatif et tranché de plusieurs de ces composants.

En outre, nous avons avons défini linguistiquement les termes complexes en langue arabe et nous avons

développé un système d"identification de termes complexes sur corpus qui produit des résultats de bonne

qualité en terme de précision, en s"appuyant sur une approche mixte qui combine modèle statistique et

données linguistiques vii

Remerciements

munications (LRIT) de la Faculté des Sciences de Rabat. Il a été effectué dans le cadre du programme

de la co-tutelle, en collaboration avec le laboratoire d"Informatique de Nantes Atlantique (LINA) de l"université de Nantes, France.

Je tiens tout d"abord à exprimer ma profonde gratitude à Monsieur Driss Aboutajdine, professeur à la

Faculté des Sciences de Rabat et responsable du LRIT, pour m"avoir encadré avec un intérêt constant et

une grande compétence, pour sa disponibilité, son soutien, ses conseils, et les encouragements qui m"ont

permis de mener à bien ce travail.

pour son aide précieuse, les efforts qu"elle a prodigués pour l"accomplissement de ce travail, ainsi pour

la qualité de l"encadrement qu"elle m"a assuré.

Je tiens aussi à remercier Monsieur Abderrahim El Qadi, professeur assistant à l"école Supérieure de

Technologie de Meknès, pour son co-encadrement, pour les discussions fructueuses que nous avons eues

et pour l"intérêt qu"il a bien voulu porter à mon travail.

Que Monsieur José Martinez, professeur à l"université de Nantes, trouve ici l"expression de mes

remerciements les plus sincères d"avoir accepté de présider cette thèse.

Je suis très honorée par la présence de Madame Josiane Mothe, professeur à l"université de Tou-

louse, France, et Monsieur Abdelfatah Hamdani, professeur à l"Institut des Etudes et de Recherches pour

l"Arabisation. Qu"ils trouvent ici mes sincères remerciements d"avoir accepté d"être rapporteurs de ce

travail.

J"exprime également mes remerciements à tous les membres du Comité Scientifique de la coopéra-

tion franco-marocaine dans le domaine des STIC (programme géré par l"INRIA du côté français).

pour m"avoir permis d"effectuer ce travail dans de bonnes conditions matérielles.

Je remercie toutes les personnes qui ont participé de manière directe ou indirecte à la concrétisation

de ce travail et plus particulièrement mon amie Fadoua Ataa-Allah, qui m"a accompagné au cours de mes

années de thèse. Qu"elle trouve ici une expression de ma reconnaissance.

Je voudrais aussi remercier tous mes collègues du laboratoire LRIT qui ont rempli ces années de

complicité de moments agréables ainsi que l"équipe TALN dont la compagnie en contexte professionnel

est réellement enrichissante. Je remercie ma famille qui a su manifester son soutien et m"entourer d"affection pendant les moments difficiles. ix

Sommaire

Résumé

Avant-Propos

............................................................................... ix

Table des matières

......................................................................... xiii

1 Introduction

............................................................................. 1

2 Recherche d"information

................................................................. 5

3 Impact du TAL en RI

................................................................... 17

4 La Langue Arabe : état de l"art

......................................................... 29

5 Identification des termes complexes

6 RI en langue arabe

7 Conclusion et perspectives

Bibliographie

.............................................................................. 93

Bibliographie

.............................................................................. 93

Liste des tableaux

......................................................................... 101

Table des figures

.......................................................................... 103

A Catégories grammaticales

.............................................................. 107

B Anti-dictionnaire

...................................................................... 109

C Requêtes

.............................................................................. 111

D Transcription de Buckwalter

........................................................... 113 xi

Table des matières

Résumé

vii

Avant-Propos

ix

Table des matières

xiii

1 Introduction

1

1.1 Organisation de la thèse

3

2 Recherche d"information

5

2.1 Introduction

5

2.2 Processus de recherche d"information

5

2.3 Modèles de RI

6

2.3.1 Modèles ensemblistes

7

2.3.2 Modèles algébriques

7

2.3.3 Modèles probabilistes

9

2.3.4 Description détaillée du modèle vectoriel

9

2.3.5 Critères d"évaluation des SRI

14

2.4 Conclusion

16

3 Impact du TAL en RI

17

3.1 Impact des connaissances morphologiques en recherche d"information

17

3.1.1 Traitement de la variation morphologique en RI

17

3.2 Impact des connaissances syntaxiques en recherche d"information

18

3.2.1 Notions de syntaxe

19

3.2.2 Utilisation des connaissances syntaxiques au sein d"un SRI

20

3.2.3 Adaptation des SRI pour l"intégration des connaissances syntaxiques

23

3.3 Impact des connaissances sémantiques en RI

24

3.3.1 Types de connaissances sémantiques utilisables en RI

24

3.3.2 Approches d"intégration des connaissances sémantiques

24

3.4 Conclusion

26

4 La Langue Arabe : état de l"art

29

4.1 la langue Arabe et ses variantes

30

4.2 Grammaire et caractéristiques de l"arabe

31

4.2.1 Voyellation

31

4.2.2 Flexion

32

4.2.3 Agglutination

33

4.2.4 Pro-drop (= à sujet pronominal vide)

33

4.3 Les parties de discours en arabe

33

4.3.1 Les parties de discours classiques

34
xiii xiv TABLE DES MATIÈRES

4.3.2 Classification récentes des unités lexicales de l"arabe

34

4.4 Ressources linguistiques : état des lieux

35

4.4.1 Lexiques

36

4.4.2 Corpus

38

4.5 Outils de traitement automatique de la langue arabe

41

4.5.1 Analyseurs morphologiques

42

4.5.2 Les concordanciers

43

4.5.3 Racineurs

43

4.6 Conclusion

45

5 Identification des termes complexes

47

5.1 Spécifications linguistiques des termes complexes

47

5.1.1 Termes complexes

48

5.1.2 Typologie, composition des termes complexes terminologiques du domaine de l"environnement

49

5.1.3 Variation des termes complexes

52

5.2 Extraction automatique des termes complexes

55

5.2.1 Les modèles linguistiques

55

5.2.2 Les modèles statistiques

56

5.2.3 Les modèles hybrides

56

5.2.4 Principe de la méthodologie

57

5.2.5 Analyse linguistique

58

5.2.6 Analyse statistique

61

5.3 Conclusion

64

6 RI en langue arabe

67

6.1 La collection de test : corpus en langue arabe standard dans un domaine de spécialité[AR¡ENV]

67

6.1.1 Moissonage du web

67

6.1.2 Normalisation

68

6.1.3 Caractéristiques de la collection

68

6.1.4 Lexique et métriques

68

6.1.5 Distribution des catégories grammaticales

70

6.1.6 Requêtes

71

6.2 Architecture de connaissances linguistiques en RI

71

6.2.1 Connaissances linguistiques

72

6.2.2 Architecture envisagée

73

6.3 Modèles de représentation

73

6.3.1 Influence des schémas de pondération

74

6.3.2 Apport du modèle LSA pour le modèle vectoriel

74

6.3.3 Influence des schémas de pondération sur le choix de la dimension réduite k du modèle LSA

76

6.3.4 Apport de pondération des requêtes

76

6.4 Impact respectif des connaissances linguistiques sur les performances des SRI

79

6.4.1 Racinisation

79

6.4.2 Syntagmes nominaux

83

6.4.3 Termes complexes

84

6.5 Conclusion

86

TABLE DES MATIÈRES xv

7 Conclusion et perspectives

89

7.1 Identification des termes complexes et ses variantes

89

7.2 Evaluation des traitements linguistiques en recherche d"information

90

7.3 Perspectives

91

Bibliographie

93

Bibliographie

93

Liste des tableaux

101

Table des figures

103

A Catégories grammaticales

107

B Anti-dictionnaire

109

C Requêtes

111

D Transcription de Buckwalter

113

CHAPITRE1

Introduction

L"évolution très rapide d"Internet a conduit à révéler la RI au grand jour, notamment par le biais

des moteurs de recherche. La profusion de données numériques disponibles a rendu indispensables des

moyens de recherche performants et automatiques, permettant à tout un chacun de trouver une informa-

tion précise. Un systèmes de recherche d"information (SRI) doit faire face à trois types de défis à savoir,

la gestion d"un volume important d"informations, la présence de multiples supports et, finalement, le

caractère plurilingue de la Toile qui représente un enjeu considérable. Dans ce contexte, l"importance

grandissante d"autres langues que l"anglais a suscité le développement d"outils et de techniques auto-

matiques afin de permettre leur traitement informatique. Ce besoin n"est pas marginal. En septembre 2007
1

, la proportion d"internautes naviguant en langue arabe était estimée à 17,4 %. Sur cette base, nous

estimons que l"utilisation de la langue arabe sur le Web va atteindre des valeurs comparables à celle des

langues européennes.

En comparaison de l"anglais ou d"autres langues indo-européennes, la langue arabe présente des carac-

téristiques singulières. Ainsi, son traitement automatique doit faire face à : la nature agglutinante de la langue : l"ensemble des morphèmes collés à l"unité lexicale 2 véhiculent plusieurs informations morphosyntaxiques. la richesse flexionnelle de l"arabe

l"absence de voyellation de la majorité des textes arabes écrits : ce phénomène entraîne un nombre

important d"ambiguités morphologiques. En arabe, chaque lettre doit prendre un signe de voyella-

tion et de surcroît les voyelles finales sont porteuses de certains traits morpho-syntaxiques comme

la déclinaison, le mode, le cas. Face à ces défis et sous l"impulsion des campagnes d"évaluation TREC-2001 [ 55
], diverses approches [ 4quotesdbs_dbs26.pdfusesText_32
[PDF] méthode du report osbl

[PDF] apport en capital

[PDF] agio définition

[PDF] goodwill

[PDF] cession de clientèle profession libérale

[PDF] gaec statut juridique

[PDF] création d'un gaec entre époux

[PDF] rémunération associé gaec ?

[PDF] différence entre gaec et earl

[PDF] avantage gaec

[PDF] retrait associé gaec

[PDF] dissolution gaec

[PDF] nutrition femme enceinte pdf

[PDF] recommandation alimentaire grossesse

[PDF] supplémentation grossesse has