[PDF] Méthodes pour informatiser les langues et les groupes de langues





Previous PDF Next PDF



GLE Coupé - Mercedes-Benz Maroc

GLE Coupé. Mai 2022. Tarifs en vigueur au 15 mai 2022 Les prix à appliquer sont ceux en vigueur le jour de la livraison du véhicule.



Guide de consommation de carburant 2019.pdf

les prix du carburant augmentent. au moment d'acheter un véhicule neuf : le prix le ... 4C COUPE. RS 3. RAPIDE AMR. A4 ALLROAD QUATTRO. VOITURES.



Treaty Series Recueil des Traites

d) Si l'application de la r~gle qui suit joue en faveur de l'int~ress6 et A de prix minimaux k l'importation It la date de signature du present Accord ...



LAVENTURE

12 mai 2018 juste prix — a fait un bond de ... l'Anas en coupe réglée et qu'il se ser- ... gle ou lors des premiers directs où les tout.



Folder ID: 1697562 Project ID: P005354 Dates: Fonds: ISAD

29 nov. 2017 lisation de la gestion h6teliere conduisant a c~mprimer les prix de revient•. •. La duree. moyenne de seJour des touristes au Maroc etant .



SOCIETE DES NATIONS

b) R~gle le commerce extdrieur et l'dchange des marchandises entre la Norvege et En ce qui concerne les voyageurs et les bagages les prix de transport



Méthodes pour informatiser les langues et les groupes de langues

23 juin 2004 Web multilingues (récompensés par un prix du site Web etc.) ... logiciel tel que Word coupe les lignes entre les mots (aux endroits où il y ...



JOURNAL CIEL - Gazettes.Africa

7 mars 2022 cables seulement 4 partir d'un prix de vente de 10.000 franes. ... gle. ARRETE: Art



Action publique et société rurale dans la gestion des forêts

7 mai 2014 À son indépendance en 1956 le Maroc a d'abord repris les principa- ... de charbonnage et de service



Treaty Series Recueil des Traites

Maroc: M. Emile Giraud reprisentant. Mexique: M. Emilio Calder6n Puig

>G A/, i2H@yyyyejRj ?iiTb,ffi?2b2bX?HXb+B2M+2fi2H@yyyyejRj am#KBii2/ QM kj CmM kyy9 >GBb KmHiB@/Bb+BTHBM`v QT2M ++2bb `+?Bp2 7Q` i?2 /2TQbBi M/ /Bbb2KBMiBQM Q7 b+B@

2MiB}+ `2b2`+? /Q+mK2Mib- r?2i?2` i?2v `2 Tm#@

HBb?2/ Q` MQiX h?2 /Q+mK2Mib Kv +QK2 7`QK

i2+?BM; M/ `2b2`+? BMbiBimiBQMb BM 6`M+2 Q` #`Q/- Q` 7`QK Tm#HB+ Q` T`Bpi2 `2b2`+? +2Mi2`bX /2biBMû2 m /ûT¬i 2i ¨ H /BzmbBQM /2 /Q+mK2Mib b+B2MiB}[m2b /2 MBp2m `2+?2`+?2- Tm#HBûb Qm MQM-

Tm#HB+b Qm T`BpûbX

Jûi?Q/2b TQm` BM7Q`KiBb2` H2b HM;m2b 2i H2b ;`QmT2b /2 HM;m2b ó T2m /Qiû2b ô oBM??Mi ??`K?Mi hQ +Bi2 i?Bb p2`bBQM,

oBM+2Mi "2`K2MiX Jûi?Q/2b TQm` BM7Q`KiBb2` H2b HM;m2b 2i H2b ;`QmT2b /2 HM;m2b ó T2m /Qiû2b ôX

UNIVERSITÉ JOSEPH FOURIER, GRENOBLE 1

UFR D'INFORMATIQUE ET MATHÉMATIQUES APPLIQUÉES

THÈSE

présentée et soutenue publiquement le 18 mai 2004 par

Vincent BERMENT

pour obtenir le titre de

DOCTEUR DE L'UNIVERSITÉ JOSEPH FOURIER

Spécialité

INFORMATIQUE

MÉTHODES POUR INFORMATISER DES LANGUES

Jury :

M. THÈSE PRÉPARÉE AU SEIN DU GETA, LABORATOIRE CLIPS (IMAG, UJF, INPG & CNRS)

Remerciements

traduction et langue parlée de la société

ATR à Kyoto, et Jean Véronis, professeur à l'Université de Provence, qui ont accepté avec

bienveillance d'être rapporteurs et m'ont prodigué des remarques pertinentes qui m'ont permis d'améliorer ce document.

Messieurs Gilles Delouche, Claude Del Vigna et Mathieu Lafourcade, qui ont accepté de participer à

mon jury de thèse. Monsieur Gilles Delouche, président de l'INALCO, qui fut mon inoubliable professeur de siamois

voilà déjà dix ans et qui, malgré sa charge nouvelle de président, m'a aidé avec beaucoup d'attention

lorsqu'il s'est agi de préciser la structure des syllabes siamoises. Monsieur Claude Del Vigna, ingénieur de recherche au CNRS, qui a encouragé mes efforts depuis

mon DEA et a contribué très activement à l'étude d'un aspect théorique de la segmentation syllabique

présentée dans cette thèse.

Monsieur Mathieu Lafourcade, maître de conférence à l'Université Montpellier 2, qui a accompagné

de sa bonne humeur ma première conférence qui se tenait à Penang et qui m'a initié, à cette occasion,

à la notion de vecteur sémantique.

Monsieur Christian Boitet, professeur à l'Université Joseph Fourier, pour l'ampleur du sujet qu'il m'a

offert d'explorer. Sans son initiative, cette thèse ne serait pas. Je le remercie très chaleureusement

aussi pour les nombreux conseils prodigués pendant la thèse et qui m'ont appris tant de choses ainsi

que pour la grande disponibilité et l'enthousiasme dont il n'a cessé de faire preuve.

J'exprime aussi toute ma reconnaissance aux personnes qui m'ont aidé, à un moment où à un autre de

cette thèse, qui à appréhender une notion, qui une subtilité linguistique ou informatique, et en

particulier à Michel Antelme, Patrick Beaudouin, Pascal Berment, Louis-Jean Calvet, Kim Chuah

Choy, Éric Duboscq, Michel Fanton, Michel Ferlus, Colette Grinevald, Paul Hector, Michel Ilkiewicz,

Claude Meunier, Tai-Luc Nguyen, Alain Polguère, Sunee Pongpinigpinyo, Pierre Sein-Aye, Christian Thomas, Houmphanh Thongvilu, Roland Touchais, Dominique Vaufreydaz, Romain Wong ainsi qu'à tous les membres du GETA.

Enfin, j'ai une pensée affectueuse pour Christine qui a accepté avec beaucoup de gentillesse et de

patience toutes les contraintes qu'imposait ce travail.

Tables et index

II.3.2 Ressources linguistiques laotiennes : LaoDict...............................................................106

II.3.3 Utilisation d'Unicode : LaoUniKey, LaoWord 4 et navigateurs Internet......................112

II.3.4 Application simple : aide à la traduction thaï-laotien...................................................114

Conclusion de la deuxième partie : bilan de l'expérience du laotien..............................................115

Tables et index

Tables et index

Tables et index

Tables et index

Tables et index

Tables et index

Tables et index

Introduction

Introduction

SITUATION ET MOTIVATIONS

Ce mémoire s'inscrit dans un large mouvement international qui vise à ce que chaque peuple puisse

disposer de tous les moyens pour communiquer dans sa langue. Dans les siècles précédents, affirmer

ou défendre une langue passait par d'autres moyens : fixer une orthographe, construire des

dictionnaires monolingues ou bilingues, recueillir des traditions orales ou encore élaborer des polices

d'imprimeur.

Aujourd'hui, le développement des ordinateurs personnels et celui des réseaux font de l'informatique

un instrument pour écrire et communiquer au même titre que le papier l'est depuis Cai Lun et

l'imprimerie depuis Gütenberg. Traitements de texte et courriers électroniques sont devenus des outils

de langue largement répandus. En dépit du caractère manifestement politique de ce mouvement

d'affirmation des langues - si l'on s'accorde, avec Hannah Arendt ([Arendt 1995]), pour dire que " la

politique repose sur un fait : la pluralité humaine » - l'idée s'impose alors qu'aux moyens

traditionnels doivent s'ajouter les outils informatiques appropriés sans lesquels les buts visés ne

peuvent plus être atteints. L'informatisation occupe ainsi une place essentielle dans cette vaste mobilisation culturelle et linguistique. P

ROBLÉMATIQUE ET INTÉRÊT DE NOTRE TRAVAIL

Mais les langues ne sont pas égales devant le processus d'informatisation et les populations parlant des

langues mal dotées ont un accès limité à ces nouveaux moyens, limitation pouvant aller d'une simple

gêne à une incapacité totale. Les Nations Unies, élément central dans le mouvement de protection de

la diversité linguistique, ont progressivement pris en compte dans leur démarche la dimension

informatique et, parallèlement, de nombreuses initiatives souvent artisanales furent organisées pour

informatiser des langues " peu dotées », en particulier par des groupes de développement travaillant en

réseau.

Nous avons développé, avant cette thèse, plusieurs traitements de texte grand public pour le laotien,

langue peu dotée informatiquement et s'écrivant avec un système d'écriture spécifique. S'appuyant sur

cette expérience, la présente thèse propose une réflexion plus approfondie sur les stratégies et

méthodes d'informatisation tout en se plaçant dans la perspective plus générale de l'informatisation

des langues, dans le but de dégager une méthodologie multidisciplinaire pouvant s'appliquer à d'autres

langues que le laotien ainsi qu'à des groupes de langues. Cette réflexion vise donc l'optimisation de

l'effort d'informatisation. En effet, l'informatisation des langues peu dotées n'est pas tant une

difficulté sur le plan informatique qu'une question de moyens humains et financiers pour permettre à

ces populations de se munir des moyens adaptés à leurs écritures et à leurs langues. M

ÉTHODOLOGIE

Le titre de cette étude évoque l'informatisation en général des langues en général. Un tel thème aurait,

de loin, dépassé le cadre d'une thèse de doctorat et risqué de l'éloigner de sa matière - l'informatique

- s'il avait dû être traité dans sa totalité. De nombreux compromis ont dû être consentis pour faire

tenir l'étude dans son cadre. Pour résoudre cette difficulté, la diversité et la généralité du sujet ont été

abordées à travers une réflexion sur les méthodologies et les techniques à mettre en oeuvre pour

diminuer les coûts de développement. Nous avons alors appliqué ces principes - quand cela était

possible - à une " langue test » : la langue laotienne. La méthodologie proposée pour

l'informatisation d'un groupe de langues a été, quant-à elle, déduite des taux de réutilisation constatés

lors de plusieurs développements dérivant de logiciels existants.

Introduction

O

RGANISATION DE LA THÈSE

Ce mémoire est constitué de trois parties et de quatorze annexes. Dans la première partie, nous

présentons les contextes linguistique, politique et technique de l'informatisation des langues peu

dotées. En particulier, nous situons la question par rapport au mouvement des Nations Unies pour la

protection des minorités et du patrimoine linguistique de l'humanité ainsi que par rapport à celui de

l'internationalisation croissante et de plus en plus performante des systèmes d'exploitation (Windows,

Linux...). Ce paysage général est complété par un panorama des acteurs et projets de l'informatisation

des langues peu dotées. Il présente, en particulier, les intervenants mettant en oeuvre cette

informatisation et comment ils le font. Nous présentons six méthodes ou stratégies techniques adaptées

aux difficultés des langues peu dotées et destinées à en aider l'informatisation. Enfin, nous présentons

comment plusieurs de ces méthodes ont été mises en oeuvre et évaluées sur la langue laotienne.

La deuxième partie est consacrée à la description technique des développements réalisés sur la langue

laotienne. Ils mettent en oeuvre plusieurs des principes exposés dans la première partie. Les

développements réalisés couvrent essentiellement des services de traitement du texte, de dictionnaire

électronique et d'aide à la traduction humaine. En conclusion de cette deuxième partie, nous

présentons les dynamiques développées en parallèle de nos travaux sur le laotien, en particulier les

expériences participatives menées et les groupes formés autour des concepts Pak Lao, LaoUniKey et

LaoLex.

Nous revenons dans la troisième partie à un point de vue plus général, en tentant de dégager une

méthodologie pour l'informatisation d'un groupe de langues. Nous l'appliquons alors au groupe des

langues à écritures non segmentées d'Asie du Sud-Est, créant pour cela les outils permettant de

segmenter leurs textes et les expérimentant sur les écritures birmane, khmère, laotienne et siamoise

(thaïe). Nous concluons cette troisième partie avec une " étude de cas » offrant une vision concrète de

ce que pourrait être un grand projet d'informatisation.

Quatorze annexes sont proposées.

L'annexe 1 propose des éléments classés sur des techniques d'informatisation des langues. L'annexe 2 présente le tableau ISO 639 des codes de langues. L'annexe 3 présente le tableau ISO 15924 des codes de systèmes d'écriture. L'annexe 4 présente un tableau langue - systèmes d'écriture. L'annexe 5 présente les principales familles de langues. L'annexe 6 présente un tableau langues - familles - nombre de locuteurs - codes Ethnologue. L'annexe 7 présente les parties du discours utilisées dans LaoDict (niveau catégorie).

L'annexe 8 présente les parties du discours, avec exemples, du laotien (niveau sous-catégorie).

L'annexe 9 présente le schéma XML Papillon pour le laotien. L'annexe 10 présente les exemples d'articles (lexies) de LaoDict. L'annexe 11 présente la grammaire des grammaires syllabiques.

L'annexe 12 présente l'article " Ambiguïtés irréductibles dans les monoïdes de mots ».

L'annexe 13 présente une licence GPL type.

L'annexe 14 présente un programme Prolog de génération des syllabes laotiennes. Elles sont de natures diverses et réunissent dans un même document de nombreuses informations souvent éparses. Première partie Méthodes d'informatisation d'une langue peu dotée Première partie Méthodes d'informatisation d'une langue peu dotée I.1 C ONTEXTE DE L'INFORMATISATION DES LANGUES PEU DOTÉES

I.1.1 Terminologie

I.1.1.1 I

NFORMATISATION D'UNE LANGUE

Du mot informatisation, le Grand Robert de la Langue Française donne la définition : " Introduction

dans une activité des méthodes informatiques ». Idéalement, informatiser une langue c'est donc mettre

à la disposition de l'utilisateur humain tous les moyens dont il a besoin dans sa langue, qu'elle soit

écrite ou non : dialogue avec la machine, outils pour écrire ou lire un texte (" en local »), envoyer un

courrier électronique (" en réseau »), traduction informatisée dans une autre langue, etc.

Voici plus précisément les ressources et les logiciels que nous retiendrons ici comme cadre de l'informatisation d'une langue : ressources ??dictionnaires : o bilingues, o d'usage, logiciels ??logiciels de traitement de la langue écrite 1 o saisie et visualisation, o recherche et remplacement de texte, o sélection du texte 2 o tri lexicographique, o correction orthographique, o correction grammaticale, o correction stylistique, ??logiciels de traitement de l'oral : o synthèse vocale, o reconnaissance de la parole, ??logiciels de traduction automatique et d'aide à la traduction de l'écrit et de l'oral, ??logiciels de reconnaissance optique de caractères (ROC), ??logiciels fournissant des services avancés, Sont classés dans cette catégorie les logiciels peu répandus ou encore à un stade de recherche. Par exemple : saisie manuscrite, résumé automatique, génération de phrases, interrogation de bases de données en langage naturel, saisie prédictive, transcription phonétique... Première partie Méthodes d'informatisation d'une langue peu dotée ??logiciels existants adaptés.

Il s'agit de logiciels réalisés à l'origine pour des langues bien dotées et adaptés à d'autres

langues, mais avec des modifications ne nécessitant pas de techniques de traitement des langues, par exemple : traduction des menus et messages dans la nouvelle langue, adaptations culturelles 1 , calculs avec les chiffres vernaculaires, choix de polices compatibles avec l'encodage et la technologie d'affichage 2 . Parmi ces logiciels, citons les calculatrices, les gestionnaires de base de données, les tableurs et les outils de planification ainsi que des services tels que recherche, dépouillement et indexation de l'information. Nous incluons aussi

dans cette catégorie les logiciels de comptabilité dont les spécificités, qui peuvent être très

significatives, ne sont pas dues à la langue mais à la législation. Notons que l'adaptation d'un

traitement de texte à une langue (par exemple l'adaptation de Word au laotien avec LaoWord, voir le chapitre I.3.2) ne sera pas classée dans cette catégorie de logiciels du fait que ses

apports (clavier virtuel, sélection du texte, traduction de mots, tri lexicographique...) sont des

traitements concernant la langue.

I.1.1.2 L

ANGUE " PEU DOTÉE »

On trouve dans la littérature, scientifique ou non, plusieurs termes pour désigner des langues moins

bien informatisées que les grandes langues véhiculaires (l'anglais, l'espagnol, le français...). Les

anglo-saxons emploient fréquemment les termes de less prevalent language (langue parmi les moins

répandues) ou de minority language (langue minoritaire ou de minorité). Ces termes, qui ne sont pas

directement liés au niveau d'informatisation, revêtent un sens fluctuant. Dans son éditorial du numéro

spécial d'Elsnews 3 consacré à l'informatisation des langues minoritaires d'Europe ([Sampson 2001]),

Geoffrey Sampson s'interroge sur le sens du terme minority language, tentant quatre définitions et

concluant qu'aucune n'était entièrement satisfaisante. Ainsi, minority language pourra désigner aussi

bien des langues parlées par quelques locuteurs seulement que des langues de minorités, qui ne sont

pas nécessairement des langues avec peu de locuteurs. Par exemple, le hindi, qui est la langue d'une

minorité au Royaume Uni 4 , compte 366 millions de locuteurs dont c'est la première langue et 487

millions dont c'est au moins la seconde (à comparer aux chiffres équivalents pour le français : 77 et

128 millions).

Ces termes renvoient généralement à des causes de la faible informatisation mais ne la caractérisent

pas. Dans la plupart des cas, ces causes (faible nombre de locuteurs, langue mal décrite...) conduisent

les grands éditeurs de systèmes d'exploitation et de logiciels à ne pas intégrer les langues dans leur

plan de développement. La possibilité d'exploiter un ordinateur dans ces langues - et donc l'accès aux

avantages de l'informatique par le plus grand nombre - est alors tributaire d'une filière de

développement parallèle (ou de l'apprentissage d'une langue comme l'anglais). Nous appellerons ces

langues informatiquement peu dotées les langues- (peu ou pas dotées), par opposition aux langues- (très bien dotées) et aux langues- (moyennement dotées) 5 Machine translation and minority languages » présenté à l'Aslib's Translating & the Computer Conference (http://www.ling.lancs.ac.uk/monkey/ihe/mille/somers.htm minority languages et de exotic languages pour parler de plusieurs

langues parlées en Grande Bretagne, incluant l'arabe et les principales langues indiennes. Ce sens donné à

" minority language » est aussi employé par le projet MILLE dont le site héberge l'article de Somers.

5 Il est remarquable que certaines ex-langues-????écemment connu une informatisation significative,

comme c'est le cas du basque, grâce à l'action d'un groupe de recherche de l'université de San Sebastian. Ces

langues ont pour nous un intérêt certain car elles ont été des langues peu dotées qui ont résolu le problème de

leur informatisation. Première partie Méthodes d'informatisation d'une langue peu dotéequotesdbs_dbs1.pdfusesText_1
[PDF] glidescope

[PDF] global net telecom

[PDF] globalnet gabes

[PDF] glossaire art plastique

[PDF] glossaire arts plastiques pdf

[PDF] glossaire arts plastiques réunion

[PDF] glossaire des termes comptables

[PDF] glossaire des termes douaniers internationaux

[PDF] glossaire financier français anglais pdf

[PDF] glossaire français anglais comptabilité pdf

[PDF] glossaire informatique pour les nuls

[PDF] glossaire istqb

[PDF] glucose et métabolisme des levures

[PDF] glucotoxicité definition

[PDF] glycémie et diabète spé svt corrigé