Contributions à la modélisation informatique de la Langue des PDF

Imprimer Dictionnaire L.S.F. - copie

Petit Dictionnaire de L.S.F. à l'usage des élèves et des enseignants. Attention : ce document est à usage interne et ne peut être vendu ! a b c d.

Quelques-signes-pour-communiquer-avec-les-patients-Sourds.pdf

23 nov. 2017 Petit dictionnaire de la Langue des Signes Française (LSF). Bonjour. Au revoir. Merci. S'il vous plaît. Oui. Non. Bien. Mauvais. LIEUX.

Des documents pour continuer à découvrir le monde des sourds

sourds d'interprètes LSF

Mon dictionnaire de la Langue des Signes Française Marseillaise

La Langue des Signes Françaises (LSF) est une langue visuo-gestuelle. Même si chaque pays Pour effectuer nos dessins nous nous.

Langue des Signes Française

Lire écrire

PETIT DICTIONNAIRE DE SIGNES ILLUSTRÉ - tiré du Catéchisme

cemment identifié parmi les sources anciennes de la LSF. Avec plus de 400 dessins et descriptions il est le dernier grand re- cueil de signes de «l'âge

Marie-France DAILLAT Aurélie GONO et Anne VANBRUGGHE

Associant le dessin et la description il publie un dictionnaire bilingue français-langue des signes jusqu'aujourd'hui inégalé. Ce dictionnaire replace

DICTIONNAIRE DE LINGUISTIQUE EN LANGUE DES SIGNES

Dictionnaire Larousse en ligne. URL : http://www.larousse.fr/dictionnaires/francais. Consulté le 21 novembre 2015. Dictionnaire vivant en langue des signes

DICTIONNAIRE ÉTYMOLOGIQUE ET HISTORIQUE

DICTIONNAIRE ÉTYMOLOGIQUE ET HISTORIQUE. DE LA LANGUE DES SIGNES FRANÇAISE. Yves Delaporte est ethnologue directeur de recherche au CNRS. Depuis 1994

Contributions à la modélisation informatique de la Langue des

2.1.1 Nature des corpus de LS : du dessin à la capture de mouvements. Les premiers corpus de LSF ont longtemps consisté en des « dictionnaires papier ».

TRAITEMENT AUTOMATIQUE DE LA

LANGUE DES SIGNES FRANÇAISE

MÉMOIRE PRÉPARÉ EN VUE DE L'OBTENTION

DE L'HABILITATION À DIRIGER DES RECHERCHES

Annelies Braffort

LIMSI/CNRS

Juin 2008

A. Braffort - " TALS »juin 2008

2/70

A. Braffort - " TALS »juin 2008

Table des matières

Chapitre 1 - Introduction....................................................................................5

1.1 La langue des signes : positionnement scientifique..........................................................5

1.2 Traitement automatique de la langue des signes : forme parlée et forme écrite..............7

1.3 Le coeur de mes contributions : modélisation informatique de la langue des signes........8

1.4 Structure du mémoire : un déroulé logique....................................................................10

Chapitre 2 - Corpus de LSF.............................................................................12

2.1 Méthodologies pour l'annotation et l'analyse de corpus............................................13

2.1.1 Nature des corpus de LS : du dessin à la capture de mouvements................................13

2.1.2 Annotation de corpus vidéo : de nouvelles méthodologies...........................................15

2.2 Structuration des résultats d'annotation et d'analyse......................................................22

2.2.1 Étude du lexique pour la reconnaissance automatique................................................22

2.2.2 Étude linguistique du lexique.......................................................................................23

Chapitre 3 - Représentations informatiques de la LSF.................................25

3.1 Enjeu : prendre en compte la grande iconicité...............................................................26

3.2 Modélisation de l'espace de signation............................................................................28

3.2.1 Les entités.....................................................................................................................28

3.2.2 Les relations spatiales..................................................................................................30

3.3 Représentation des unités gestuelles...............................................................................32

3.3.1 Définition des problématiques......................................................................................33

3.3.2 Représentation des signes standards en contexte.........................................................36

3.4 Représentation des énoncés ...........................................................................................40

Chapitre 4 - Mise en oeuvre...............................................................................46

4.1 Reconnaissance et interprétation....................................................................................47

4.2 Génération et animation..................................................................................................48

4.3 Interaction gestuelle en Communication Humain-Machine...........................................50

Chapitre 5 - Conclusion et perspectives..........................................................52

5.1 Bilan................................................................................................................................52

5.1.1 Les corpus de LSF........................................................................................................52

5.1.2 Les représentations de la LSF......................................................................................52

5.2 Les perspectives..............................................................................................................53

5.2.1 Les corpus de LSF........................................................................................................54

5.2.2 Les représentations de la LSF......................................................................................57

5.2.3 Agents Gestuels............................................................................................................58

3/70

A. Braffort - " TALS »juin 2008

4/70

A. Braffort - " TALS »Juin 2008

CHAPITRE 1 - INTRODUCTION

Ce chapitre présente le domaine sur lequel se concentrent mes recherches. Je commence par préciser ce qu'est la langue des signes et son contexte sociétal et scientifique, qui induisent mon positionnement scientifique. Puis je présente le domaine du traitement automatique des langues des signes. Enfin, je décris mon objectif scientifique ainsi que la façon dont s'organisent mes recherches pour mener à bien cet objectif, en donnant un aperçu de la chronologie de ces recherches. La fin du chapitre explicite la structuration des différents chapitres de ce mémoire.

1.1LA LANGUE DES SIGNES : POSITIONNEMENT SCIENTIFIQUE

Les langues des signes, langues visuo-gestuelles pratiquées au sein des communautés de sourds, assurent toutes les fonctions remplies par les autres langues naturelles vocales. Elles sont, pour les sourds, le seul mode linguistique véritablement approprié, le seul qui leur

permette un développement cognitif et psychologique d'une façon équivalente à ce qu'il en

est d'une langue vocale pour un entendant. La langue des signes permet de communiquer par un canal de réception visuel et un canal

d'émission gestuel. De ce fait, elle favorise l'émission d'une simultanéité d'informations, au

moyen d'un ensemble conséquent d'articulateurs1 (mains, bras, épaules, buste, tête, visage,

yeux) qui s'articulent de façon simultanée. De même, la façon d'organiser le discours est liée

aux capacités perceptives de la vue. Ainsi, le mouvement et l'utilisation pertinente de l'espace

situé devant le signeur (le locuteur en LS), nommé espace de signation, sont des éléments

exploités intensément en langue des signes. Enfin, elle fait un usage intensif de l'iconicité,

tant au niveau du lexique que des énoncés, grâce à sa capacité à dire sans montrer, mais aussi

à dire en montrant [Cuxac 00]. Ces notions sont rappelées à la section 3.1.

1 Articulateur : toute partie mobile du corps sur laquelle on peut agir volontairement et qui est fonctionnelle dans la

production de la parole, ce terme étant employé dans son sens premier, celui de langage incarné.

5/70

A. Braffort - " TALS »Juin 2008

La langue des signes française a été longtemps interdite comme langue d'enseignement pour les enfants sourds (de 1880 à 1991) et sa reconnaissance officielle comme langue de

France est très récente (loi de février 20051). Cela a particulièrement freiné la dynamique de

recherche, qui ne s'est vraiment développée que depuis peu d'années. Actuellement, la situation est encore très insatisfaisante, en particulier dans les domaines de l'accès aux informations et de l'éducation [Cuxac Brugeille Dalle et al. 03]. Le contexte de la recherche

scientifique s'inscrit dans cet environnement social particulier qui amène à être

particulièrement vigilant quant aux aspects éthiques et aux retombées des résultats de

recherche [Braffort 02]. Le domaine de la recherche, même s'il est assez récent, en particulier

en informatique, n'est pas exclu des débats passionnés, voire militants, qui perdurent encore lorsqu'il est question de la langue des signes, car du regard que l'on porte sur cette langue va découler un véritable choix sur ce que l'on considère comme faisant partie de la langue et donc ce qu'il faut prendre en compte pour la modélisation. Les premières recherches en linguistique, menées aux États-Unis, avaient essentiellement pour but de faire reconnaître les langues des signes comme des langues à part entière aux

yeux de la communauté scientifique, ce qui n'était pas une évidence pour tous les linguistes à

l'époque. Cela s'est fait en prouvant l'existence dans les langues des signes d'un certain nombre de propriétés que l'on trouve dans les langues vocales [Stokoe 60]. Encore

maintenant, la langue des signes est souvent étudiée au travers de modèles linguistiques issus

de l'étude des langues vocales par certains linguistes, qui y voient la possibilité de mieux la

comparer aux langues vocales. Le problème est que ce point de vue induit la mise à l'écart des

phénomènes relatifs à l'iconicité. En raison de sa nature visuo-gestuelle, son fonctionnement

repose sur des mécanismes physiologiques différents, ce qui induit des représentations

cognitives différentes [Courtin 02]. Cela incite à proposer des approches différentes, avec la

volonté de ne pas risquer de dénaturer la langue. C'est le point de vue adopté par Christian

Cuxac, qui propose un modèle original, global et cohérent du fonctionnement de la LSF basé sur la prise en compte de l'iconicité comme principe organisateur [Cuxac 00 ; Cuxac 04]. Des linguistes travaillant sur d'autres langues des signes commencent à adopter ce point de vue [Liddell 00]. Les recherches en informatique concernent encore peu d'équipes, la plupart se

spécialisant sur une problématique particulière de traitement informatique telle que l'analyse

automatique de corpus vidéo (TCI/IRIT, Université Paul Sabatier Toulouse), la synthèse de mouvements réalistes (Samsara/Valoria, Université de Bretagne Sud) ou les processus de traitement automatique de langue (Geste/LIMSI, CNRS Orsay). Cette situation est assez représentative de ce qui se passe au plan international. Par exemple, au niveau européen, la liste des laboratoires cherchant à modéliser les langues des signes pour le traitement automatique est assez courte. On peut citer l'université de Hambourg (UHH) en Allemagne, qui étudie les corpus et la transcription de corpus, les universités d'Aachen en Allemagne et du Surrey (UniS) en Angleterre qui s'intéressent à la reconnaissance automatique, ainsi que l'université d'East Anglia (UEA) et l'institut ILSP d'Athènes en Grèce qui étudient la génération automatique.

Les modèles informatiques sont en général basés sur des modèles linguistiques existants,

si bien qu'une part importante des modèles pour les langues des signes s'inspire des modèles informatiques proposés pour les langues vocales. Pour ma part, j'ai choisi de proposer des modèles informatiques nouveaux, qui permettent de représenter au maximum l'étendue des

1 Loi no 2005-102 du 11 février 2005 " pour l'égalité des droits et des chances, la participation et la citoyenneté des

personnes handicapées » : http://www.legifrance.gouv.fr/WAspad/UnTexteDeJorf?numjo=SANX0300217L

6/70

A. Braffort - " TALS »Juin 2008

productions possibles en langue des signes, en m'inspirant du modèle linguistique proposé par

Christian Cuxac.

La section suivante présente plus précisément les problématiques du domaine du traitement automatique de la langue des signes, ainsi que des domaines concernés de l'informatique.

1.2TRAITEMENT AUTOMATIQUE DE LA LANGUE DES SIGNES :

FORME PARLÉE ET FORME ÉCRITE

Dans le domaine du traitement des langues en général, on distingue les recherches

menées sur la forme parlée1 de celles sur la forme écrite. Pour la langue des signes, cela se

décline de la façon suivante :

·Forme parlée de la LSF. Elle est généralement stockée sous forme de vidéo, ou sous

forme de fichiers de données (type XML ou BVH) si les systèmes de capture utilisés ne sont pas des caméras. L'analyse de cette forme parlée implique des recherches dans le domaine du traitement d'images, du traitement du signal ou de la reconnaissance de formes. En synthèse, la forme parlée est produite sous la forme d'une animation d'un humain virtuel, nommé signeur virtuel, dont on va contrôler ou générer la gestuelle, ce qui touche au domaine de l'informatique graphique. ·Forme écrite de la LSF. Si certains signeurs (locuteurs de LSF) créent ou utilisent des formes graphiques pour noter les signes isolés ou les énoncés signés, par exemple dans un contexte de création théâtrale ou en enseignement, il n'existe pas à ce jour de forme écrite institutionnalisée de la LSF. Il s'agit cependant d'un thème de recherche extrêmement important, si on considère les implications de l'usage d'un tel système en particulier dans l'enseignement. Des projets de recherche ont été initiés récemment sur ce thème en France [Garcia Aznar Bolot et al. 07]. On peut noter que la vidéo est parfois utilisée pour remplir certaines fonctions de l'écrit [Brugeille 07], ainsi que les signeurs virtuels [Efthimiou & Fotinea 07], en particulier dans le cadre de l'éducation. Les domaines de recherche concernés concernent en particulier la linguistique et la pédagogie. Selon la forme de la langue que l'on va étudier (parlée ou écrite) et selon le point de vue que l'on va adopter (analyse ou génération), les domaines de l'informatique concernés vont

être très différents : traitement du signal, traitement d'image, reconnaissance automatique,

infographie, animation 3d, représentation des connaissances, traitement automatique des langues. Dans tous les cas, il va falloir développer des modèles fondamentaux qui permettent de représenter des aspects du fonctionnement de la langue des signes. La section suivante présente le coeur de mes contributions, qui portent sur la modélisation de la langue des signes.

1 Forme parlée est entendue ici par opposition à forme écrite, indépendamment du canal vocal ou gestuel.

7/70

A. Braffort - " TALS »Juin 2008

1.3LE COEUR DE MES CONTRIBUTIONS :

MODÉLISATION INFORMATIQUE DE LA LANGUE DES SIGNES Le coeur de mes contributions porte sur la modélisation informatique du fonctionnement de la LSF (figure1), en s'appuyant sur l'analyse de corpus. L'analyse de corpus donne lieu à des recherches sur la méthodologie d'annotation de corpus de LSF. Les résultats de ces recherches, ainsi que les connaissances acquises lors de l'annotation et de l'analyse de corpus, sont appliqués aux domaines de la reconnaissance et de la génération automatiques, ainsi qu'au développement de logiciels d'aide à l'annotation. Les prototypes ou applications qui sont mis en oeuvre sont des moyens d'évaluer la pertinence et l'efficacité de représentation des modèles proposés. Mes recherches dans ce domaine se sont organisées en trois étapes :

1.Initiation des recherches en informatique sur la LSF. La LSF a été étudiée au

LIMSI à partir de 1992 dans le cadre de ma thèse [Braffort 96b]. Étant le premier chercheur en informatique à étudier la LSF, je suis partie d'un terrain quasiment vierge et j'ai choisi de procéder à une étude transversale afin de déterminer les points durs et les modèles à concevoir dans le contexte de la reconnaissance automatique d'énoncés en LSF. Parmi ces points durs, on peut noter la représentation du lexique hautement déformable en contexte (emplacement des signes, verbes directionnels...) et des autres unités gestuelles mises en oeuvre en langue des signes (proformes1, pointages...), ainsi que l'interprétation des informations spatio-temporelles véhiculées par les gestes. J'ai proposé un modèle basé sur la représentation de l'espace de signation, représentation de haut niveau agissant comme une mémoire contextuelle

1 Proforme : configuration de la main qui représente un point de vue sur une entité précédemment introduite dans le discours.

8/70Figure 1: Schéma global.

A. Braffort - " TALS »Juin 2008

spatiale, permettant l'interprétation d'énoncés composés de signes dont la réalisation

dépend du contexte.

2.Premiers approfondissements des modèles. Certaines de ces problématiques ont

ensuite été approfondies dans le cadre de plusieurs thèses : la thèse de Fanch Lejeune [Lejeune 04], qui a proposé des modèles basés sur les grammaires sémantico- cognitives pour la représentation d'énoncés plus complexes ; celle de Bruno Bossard [Bossard 06], qui s'est centrée sur les problématiques d'interprétation des gestes bimanuels. Le modèle proposé par F. Lejeune a pu être mis en oeuvre dans ce contexte afin de permettre l'interprétation d'énoncés comportant des relations spatiales, telles que " sur » ou " dans ».

3.Élaboration d'un modèle consolidé et étude de la génération. Le cadre applicatif

s'est ensuite étendu à la génération automatique pour les thèses en cours. Celle de Michael Filhol [Filhol 08] propose un nouveau modèle pour représenter le lexique, basé sur une approche géométrique et séquentielle, qui permet de prendre en compte des possibilités de déformation des signes en contexte dès leur description. La thèse

d'Émilie Chételat-Pelé porte sur l'analyse des gestes non manuels, jusqu'alors négligés

dans les modèles informatiques. Elle a proposé en premier lieu une nouvelle méthodologie d'annotation des corpus de langue des signes sur ces aspects [Chételat-

Pelé Braffort & Véronis 07] . Enfin, la thèse de Jérémie Segouat vient de débuter et

porte sur les problématiques de coarticulation lors de la génération d'énoncés par enchaînement d'animations [Segouat Braffort Bolot et al. 08 ; Segouat Braffort

Choisier et al. 08].

Les modèles conçus dans un cadre applicatif courent le risque de se révéler trop ad hoc pour être réutilisables dans un autre contexte. Ils peuvent incorporer des fonctionnalités indispensables uniquement pour le cadre applicatif donné, ou au contraire ils peuvent négliger des aspects qui seraient indispensables dans un autre contexte. Par ailleurs, un modèle

suffisamment générique pour couvrir différents cadres applicatifs, même s'il nécessite d'être

décliné sous des formes adaptées aux différents contextes, est un meilleur garant de la qualité

des modèles, assurant ainsi un moyen d'évaluation supplémentaire. Enfin, il permet

d'envisager à terme des systèmes comportant à la fois une partie reconnaissance et une partie

synthèse. C'est une des raisons qui m'ont amenée à passer du cadre applicatif de la reconnaissance à

celui de la génération, tout en poursuivant des collaborations avec des équipe de recherches et

plus particulièrement l'une d'entre elle spécialisée dans l'analyse de corpus vidéo, ceci en vue

d'élaborer des modèles communs [Braffort & Dalle 07]. Au niveau national, si des recherches

spécialisées sont menées sur chaque sujet au sein des équipes, il a été constitué depuis 2000

des projets collaboratifs ou des groupes de travail, avec des équipes aux compétences

complémentaires, tant en informatique qu'en linguistique. Ces projets ont permis en

particulier la constitution de corpus à vocation pluridisciplinaire, la constitution de bases de

données, ou de logiciels d'aide à l'annotation et à l'analyse de corpus : projet national LS-

COLIN [Cuxac Braffort Dalle et al. 02] ; action CNRS AS-CLS [Gibet Toulotte et al. 04] ; action CNRS AS-IG [Dalle Cuxac Boutet et al. 04] ; projet ANR/RIAM LS-Script [Garcia

Aznar Bolot et al. 07].

Ces projets collaboratifs ont été aussi l'occasion d'une réflexion commune sur la langue des signes et la gestuelle coverbale [Dalle Cuxac Boutet et al. 04]. Les modèles ou

méthodologies développés pour la gestuelle coverbale, qui est étudiée par les informaticiens

depuis plus longtemps, peuvent donner des pistes de réflexion pour l'étude de LS et 9/70

A. Braffort - " TALS »Juin 2008

réciproquement. Ainsi, si mes contributions concernent principalement la LSF, j'ai aussi

élaboré des modèles informatiques pour l'interaction gestuelle, dans un contexte d'interaction

multimodale [Braffort Gherbi 98 ; Gherbi Braffort 99 & 00 ; Martin Braffort & Gherbi 00] et

en réalité virtuelle [Bossard Convard Braffort et al. 04], dérivés de modèles conçus au départ

pour la langue des signes. Le présent mémoire présente une synthèse des principaux résultats obtenus, agencés selon la structure donnée ci-dessous.

1.4STRUCTURE DU MÉMOIRE : UN DÉROULÉ LOGIQUE

J'ai choisi de présenter la synthèse de mes travaux de recherche suivant un ordre logique plutôt que chronologique, afin qu'ils soient regroupés par thématiques principales. Ainsi, le chapitre suivant (chapitre 2) porte sur la question des corpus de langue des

signes (parties colorées figure 2). Il développe les recherches menées autour des

méthodologies d'annotation et les principaux éléments constituant les bases de connaissances.

Le chapitre 3 concerne les modèles informatiques de la langue des signes. Ces modèles prennent appui sur les bases de connaissances, comme illustré dans la (figure 3).

10/70Figure 2: Recherches sur les corpus.

A. Braffort - " TALS »Juin 2008

A partir de ces recherches fondamentales, des implémentations sont réalisées dans différents

cadres applicatifs (figure 4) à des fins d'évaluation, voire même dans des applications grand

public. Le chapitre 4 présente des exemples de telles mises en oeuvre.

Le dernier chapitre (chapitre 5) est consacré à un bilan global ainsi qu'à une présentation

des perspectives sur l'ensemble de mes recherches. Dans la suite de ce mémoire, les acronymes LS, LSF et LV correspondent respectivement à Langue des Signes, Langue des Signes Française et Langue Vocale.

11/70Figure 4: Cadres applicatifs.Figure 3: Modélisation de la langue des signes

A. Braffort - " TALS »Juin 2008

CHAPITRE 2 - CORPUS DE LSF

Ce chapitre expose mes activités de recherche relatives à la conception de méthodologies pour l'annotation et l'analyse de corpus de LSF et à la constitution de bases de connaissances grâce à ces annotations et analyses (figure 5). La première section (section 2.1) porte sur les méthodologies qui ont été proposées, basées sur l'utilisation de logiciels d'annotation et d'analyse spécifiques. La deuxième section (section 2.2) concerne la description des différents types de bases de connaissances qui ont été élaborées à partir de ces analyses. Finalement, un bilan (section 2.3) synthétise les apports sur ces deux aspects.

Figure 5: Recherches sur les corpus.

12/70

A. Braffort - " TALS »Juin 2008

2.1MÉTHODOLOGIES POUR L'ANNOTATION ET L'ANALYSE DE CORPUS

Les méthodes utilisées pour annoter et analyser les corpus de LS dépendent de la nature

des données étudiées. Cette section discute dans une première partie les différents types de

données ainsi que les avantages et inconvénients associés (section 2.1.1). Une deuxième partie

expose les méthodologies créées pour l'annotation et l'analyse de corpus vidéo de LS (section

2.1.2).

2.1.1Nature des corpus de LS : du dessin à la capture de mouvements

Les premiers corpus de LSF ont longtemps consisté en des " dictionnaires papier »

contenant une liste de signes institutionnalisés représentés sous forme de dessins (figure 6), tel

que le " dictionnaire IVT1 » [Moody 98]. Les études basées sur des données avec ce type de

support sont limitées aux signes considérés hors contexte. La nature statique et

bidimentionnelle des dessins limite l'analyse des phénomènes liés aux aspects spatio- temporels, qui sont pourtant fondamentaux en LS.

Les caméras vidéo grand public nous ont ensuite permis de réaliser des corpus stockés sur

des cassettes VHS (projet Cognisciences Pôle Paris-Sud [Calbris Cuxac & Leix 94]), avec une qualité d'image souvent médiocre et se dégradant au cours du temps (figure 7a). La démocratisation récente de la vidéo numérique nous permet maintenant de constituer des

corpus d'une plus grande qualité et d'une durée de vie a priori illimitée (figure 7b) [Braffort

Choisier & Collet 03.

1 IVT : International Visual Theatre : http://www.ivt.fr/

13/70Figure 6: Représentation du signe [SOURD]

dans le dictionnaire IVT.

A. Braffort - " TALS »Juin 2008

Le corpus LS-COLIN, réalisé à l'INJS1 de Paris a été constitué dans le cadre d'un projet

ministériel fléché " Langage et Cognition » par un collectif pluridisciplinaire composé de

linguistes et d'informaticiens [Cuxac Braffort Dalle et al. 02]. Il contient 90 productions complètes (environ deux heures d'enregistrement) répartis en différents genres discursifs (narratif, explicatif, argumentatif et métalinguistique). Les treize locuteurs sourds adultes qui

ont participé à l'enregistrement présentent une grande variété sociolinguistique (âge, sexe,

région d'origine, profession). Ils ont été filmés dans le studio professionnel de l'INJS au

moyen de trois caméras numériques selon trois angles de vue (plan américain, vue rapprochée

et vue du dessus) synchronisées par un flash. Ce corpus est le premier qui soit suffisamment

étendu et de suffisamment bonne qualité pour permettre aux chercheurs d'établir des résultats

d'analyse statistique et de procéder à des analyses informatiques telles que le traitement d'image. S'ils permettent d'observer l'aspect dynamique des productions, l'image reste

bidimensionnelle et limite l'analyse des phénomènes spatiaux. Les recherches menées dans les

équipes spécialisées dans l'annotation automatique de corpus vidéo, telles que celle de l'IRIT

[Gianni Collet & Dalle 07], devraient cependant permettre à terme d'acquérir des indices sur ces aspects. Certains systèmes de capture, issus des domaines de l'analyse du mouvement et de la

réalité virtuelle, permettent de capter les gestes dans les trois dimensions de l'espace (figure

8). Mais leur nature intrusive a un impact sur la " naturalité » des gestes réalisés et donc sur la

représentativité du corpus enregistré. A ce jour cela reste cependant le seul moyen d'acquérir

des informations précises et fines sur les mouvements pour analyser la nature des

mouvements en vue de leur modélisation pour la génération de mouvements réalistes [Gibet Héloir Courty et al. 06 ; Héloir 08] ou pour la segmentation automatique [Héloir Gibet

Multon et al 05].

1 INJS : Institut National de Jeunes Sourds - http://www.injs-paris.fr/

14/70Figure 7: a) Extrait du corpus "Temps et Aspect" (1993)

b) Extrait du corpus LS-COLIN (2002).

A. Braffort - " TALS »Juin 2008

Figure 8: Système de capture de gestes bimanuels. J'ai commencé par étudier des données issues de " dictionnaires papier », puis des données numériques acquises au moyen de capteurs de mouvements, pour lesquelles j'ai développé des méthodologies spécifiques, comportant la mise en oeuvre de processus de traitement du signal [Braffort 96b]. Je ne détaillerai pas ces méthodes ici, car elles sont

intimement liées au système de capture utilisé et au cadre applicatif. Je synthétise dans la

section suivante les études qui ont été menées dans le cadre de corpus vidéo et qui sont de fait

beaucoup plus génériques.

2.1.2Annotation de corpus vidéo : de nouvelles méthodologies

Les logiciels d'annotation de vidéos ont permis de franchir un cap méthodologique pour l'analyse des productions en LSF. Les principaux sont SignStream [Neidle 02 ; Neidle Sclaroff & Athitsos 01], ELAN [Wittenburg Brugman & Russel 06 ; Crasborn & Hanke 03 ; Crasborn Sloetjes Auer et al. 06] ou ANVIL [Kipp 01]. Beaucoup d'entre eux permettent de structurer l'annotation, sous forme de fichiers XML, ce qui est une première approche pour la

formalisation des phénomènes étudiés. Certains permettent aussi de réaliser des analyses sur

les données d'annotation. Si ce n'est pas le cas, il est possible d'utiliser des logiciels dédiés,

tels que les tableurs grand public ou des plateformes de traitement de données telles que

Scilab1.

Ceci dit, l'annotation de vidéos de LSF induit des problématiques de recherche

spécifiques, qui sont pour l'instant peu, voire pas du tout, abordées au sein de la communauté

scientifique travaillant sur la langue des signes. En revanche, les chercheurs étudiant la gestuelle coverbale travaillent activement à la conception de méthodologies spécifiques,

comme M. Kipp, qui cherche à annoter la gestuelle coverbale à l'aide de critères numériques

[Kipp 04]. Les méthodes que l'on veut mettre en oeuvre pour les LS peuvent prendre appui sur

celles développées pour le coverbal, tout en intégrant bien sûr les propriétés linguistiques

inhérentes à la LS. Cette section expose trois études ayant amené à proposer de nouvelles méthodologies, pour l'annotation des informations spatiales, des mouvements des éléments mobiles du visage,

1 Scilab : logiciel de calcul numérique pour les applications scientifiques : http://www.scilab.org

15/70

A. Braffort - " TALS »Juin 2008

ainsi que pour l'exploitation des données d'annotation associées à des processus de traitement

d'images.

Annotation des informations spatiales

L'un des points durs relatif à l'annotation des corpus vidéo concerne les informations spatiales. Par exemple, il est nécessaire d'annoter finement la direction du regard, pour

déterminer si le signeur regarde l'interlocuteur, ses mains ou encore une portion déterminée

de l'espace de narration, portion qui peut être ensuite reprise par un pointage ou par le positionnement d'une unité gestuelle dédiée, le proforme. Le problème vient du fait que cet espace est par nature continu, tandis que l'annotation

d'une vidéo avec les logiciels dont on dispose actuellement est quant à elle de nature discrète.

Il est donc nécessaire de définir une segmentation plus ou moins arbitraire de cet espace. Une

fois cette segmentation établie, il faut pouvoir identifier les différents segments d'espace. Pour

cela, des descriptions symboliques iconiques sont plus aisées à manipuler que des mots ou des codes textuels. La problématique de l'annotation de ces portions de l'espace de signation a été abordée dans le cadre des stages de master de Jérémie Segouat [Segouat 03] et Clarine Tranchant [Tranchant 07]. Ils ont proposé une segmentation basée sur les propositions de linguistes [Prillwitz & Zienert 89 ; Crasborn Van Der Hulst & Van Der Kooij 01] complétées par une analyse statistique à partir du corpus LS-COLIN pour lequel on dispose de plusieurs vues permettant d'annoter selon les trois dimensions. Il a ensuite expérimenté l'utilisation de plusieurs types d'icônes dédiées (figure 9). Cette proposition a ensuite affiné le cadre linguistique de cette segmentation et ajouté une typologie de l'usage qui en est fait, afin d'affiner la nature des informations annotées (notions de : partie/tout, localisant/localisé, stable/déplaçable, contenant/contenu...). Ces études ont permis d'identifier les problèmes méthodologiques et de proposer des premiers éléments de réponse. Il n'en reste pas moins que la nature bidimensionnelle des

images vidéo rend difficile l'annotation précise de la profondeur. C'est maintenant au coeur des

logiciels d'annotation qu'il convient de s'intéresser afin d'y adjoindre des capacités

supplémentaires, en particulier de visualisation 3d.

16/70Figure 9: Ensemble d'icônes pour l'annotation des

informations spatiales.

A. Braffort - " TALS »Juin 2008

Méthodologie d'annotation des informations non manuelles Un autre point dur concerne la description des aspects non manuels de la LSF, que nous nommerons Gestes Non Manuels (GNM). Ces gestes ont été étudiés du point de vue linguistique très globalement [Cuxac 00 ; Vergé 01]. Les notations comme HamNoSys [Prillwitz & Zienert 89], D'Sign [Jouison 95] ou SignWriting [Sutton 95] ne donnent pas une description détaillée des phénomènes. La figure 10 illustre ce point pour les sourcils.

Il est nécessaire d'étudier finement ces phénomènes pour parvenir à leur formalisation

informatique. Les recherches les plus avancées sur ces aspects se trouvent plutôt dans la communauté s'intéressant à la gestuelle coverbale. On peut citer en particulier les travaux

initiés par Ekman et Friesen [Ekman & Friesen 78], qui ont abouti à la définition du système

" Facial Action Coding System » (FACS). Il s'agit de vérifier l'adéquation de ce type de modèle pour les gestes non manuels des LS et de l'enrichir le cas échéant. Cette recherche est menée dans le cadre de la thèse d'Emilie Chételat-Pelé. Le premier apport de ces travaux concerne la méthodologie d'annotation. La proposition consiste à

décrire les mouvements des éléments (sourcils, joue, paupières, bouche...), plutôt que les

positions finales comme cela a été le cas jusqu'alors, ce qui permet une finesse de description

bien plus grande. Ce choix méthodologique est complété par la création d'un ensemble de

symboles et des méthodes d'utilisation associées [Chételat-Pelé Braffort & Véronis 07 ;

Chételat-Pelé & Braffort 08a].

Ces symboles sont représentés sur la figure 11. Il s'agit de flèches dont l'orientation est

variable. Les flèches verticales indiquent qu'il y a contact entre les deux éléments du visage

(par exemple la flèche verticale vers le haut pour annoter la paupière inférieure qui monte

jusqu'à toucher la paupière supérieure), tandis que les flèches en diagonale sont utilisées

lorsqu'il n'y a pas de contact. Cela permet par exemple de distinguer les yeux fermés des yeux plissés.

17/70Figure 11: Liste des symboles utilisésFigure 10: Différentes notations pour "sourcils levés"

A. Braffort - " TALS »Juin 2008

Les éléments du visage (yeux, bouche...) sont repérés par des points pertinents qui se

déplacent sur des axes. Par exemple, la bouche est décomposée en quatre points (un point à

chaque coin, un point au centre de la lèvre supérieure et un point au centre de la lèvre inférieure). L'amplitude de la réalisation du mouvement est indiquée par un code couleur (figure 12). Les flèches peuvent se combiner pour décrire les différentes phases de réalisation d'un geste non manuel : mouvement conduisant de la position initiale à la position adoptée, tenue de ce mouvement, puis mouvement ramenant à la position initiale ou conduisant à une autre

position (figure 13). Les phases de réalisation sont ainsi isolées et peuvent être sujettes à une

analyse particulière (par exemple : le sens est-il le même lorsqu'une position est adoptée très

lentement ou très rapidement ?). De plus, comme chaque mouvement se définit par rapport au précédent, une infinité de

formes est possible. Par exemple si une flèche " haussement atténué » est utilisée, elle ne

prend sens qu'en contexte : si la flèche précédente était un " haussement amplifié » alors cela

signifie que l'élément est à une position encore plus haute que la précédente. Cette méthodologie d'annotation a été testée sur un extrait du corpus LS-COLIN [Cuxac Braffort Dalle et al. 02] à l'aide du logiciel Anvil [Kipp 01 ; Kipp 04]. Cela a permis de décrire un certain nombre de phénomènes très fins intervenant en LSF. Un exemple est détaillé ci-dessous.

18/70Figure 13: Les trois phases de réalisation

d'un haussement de sourcil.Figure 12: Les trois degrés d'amplitude d'un mouvement (atténué, moyen, amplifié).

A. Braffort - " TALS »Juin 2008

Figure 14: Extrait d'annotation avec ANVIL, détails sur les sourcils et les paupières. Dans la partie B de la figure 14, les trois flèches du bloc bleu (premier bloc de la première ligne) décrivent un haussement de sourcils moyen (flèches marron : " moyenne ») avec ces trois phases de réalisation. A droite (en jaune), un léger froncement de sourcils est

décrit (flèches roses claires : réalisation atténuée). Sur la seconde ligne (paupière supérieure),

au niveau du second bloc (rouge) nous pouvons voir que le signeur ferme les yeux (flèche de

contact) puis qu'il les maintient fermés. Enfin, au lieu d'avoir un retour à la position initiale il

va les rouvrir légèrement (degré de réalisation). Cette annotation, basée sur des symboles et des codes couleurs simples, permet dans une

première analyse globale de repérer visuellement des structures récurrentes et d'en déduire

des pistes pour mener une analyse statistique plus fine. C'est aussi une première approche pour une formalisation des GNM, ainsi que pour l'acquisition de données numériques

(amplitude, fréquence, durée...) qui seront nécessaires pour le traitement automatique de tels

phénomènes. Une analyse plus fine est menée actuellement sur le mouvement des sourcils, en

procédant à une annotation manuelle de la position de chaque sourcil et paupière directement

sur la vidéo (figure 15). Ce travail de longue haleine (il s'agit de positionner 18 points par image à raison de 25 images par seconde), va permettre de déterminer numériquement la structure des mouvements

(leur différentes phases, durée, amplitude...) et donc d'associer des valeurs numériques aux

19/70Figure 15: Annotation de la position des sourcils directement sur la vidéo.

A. Braffort - " TALS »Juin 2008

flèches présentées précédemment et de valider l'ensemble de la méthode [Chételat-Pelé

Braffort & Véronis 08 ; Chételat-Pelé & Braffort 08b]. Annotation des mouvements du buste : assistance du traitement d'image Ces annotations sont très fastidieuses et on aimerait pouvoir bénéficier d'un système permettant une annotation sinon automatique, du moins partiellement automatique de certains

phénomènes. Dans cet esprit, une méthode pour l'annotation des mouvements du buste à l'aide

d'un système de traitement d'images a été mise en oeuvre dans le cadre du stage de master

d'Émilie Martin [Segouat Braffort & Martin 06]. Cette méthode a reposé sur l'utilisation d'un

module de suivi global du mouvement développé dans le cadre d'une thèse [Cassel 05] pour les mouvements de sportifs (trampoline, barre fixe, plongeon...) en situation de compétition.

Il consiste à déterminer une boite englobante autour de la personne en mouvement et à fournir

la taille (L, H) de la boite et les coordonnées (X, Y) du centre de la boite (figure 16). L H X YFigure 16: La boite englobante et les quatre paramètres mesurés. Le traitement a été appliqué aux trois vues de la vidéo (visage, de face, de dessus) du

corpus LS-COLIN et les données numériques obtenues ont été insérées au sein du logiciel

d'annotation ANVIL (figure 17). 20/70

A. Braffort - " TALS »Juin 2008

Figure 17: Exemple d'un ensemble de courbes calculées sur la vue du dessus.

Les données ont été corrélées manuellement avec des annotations de nature linguistique

issues du travail de thèse de Marie-Anne Sallandre [Sallandre 03]. A partir de ces courbes, on peut par exemple calculer une valeur moyenne et déterminer les parties de la courbe qui sont au dessous ou au dessus de cette moyenne, ce qui nous permet de détecter automatiquement

des passages particuliers dans la vidéo tels que le basculement du buste du signeur à droite ou

à gauche de son positionnement moyen. On peut aussi déterminer des phases de pauses. Par

exemple, en corrélant une période de pause avec une valeur inférieure à la moyenne pour la

coordonnée x de la vue du dessus, qui correspond à un décalage de l'axe du corps, on peut

détecter certains transferts personnels (ou prises de rôle), tel celui illustré à la figure 18a, où le

quotesdbs_dbs50.pdfusesText_50

[PDF] Contributions à la modélisation informatique de la Langue des

TRAITEMENT AUTOMATIQUE DE LA

LANGUE DES SIGNES FRANÇAISE

MÉMOIRE PRÉPARÉ EN VUE DE L'OBTENTION

DE L'HABILITATION À DIRIGER DES RECHERCHES

Annelies Braffort

LIMSI/CNRS

Juin 2008

A. Braffort - " TALS »juin 2008

A. Braffort - " TALS »juin 2008

Table des matières

1.1 La langue des signes : positionnement scientifique..........................................................5

1.2 Traitement automatique de la langue des signes : forme parlée et forme écrite..............7

1.3 Le coeur de mes contributions : modélisation informatique de la langue des signes........8

1.4 Structure du mémoire : un déroulé logique....................................................................10

2.1 Méthodologies pour l'annotation et l'analyse de corpus............................................13

2.1.1 Nature des corpus de LS : du dessin à la capture de mouvements................................13

2.1.2 Annotation de corpus vidéo : de nouvelles méthodologies...........................................15

2.2 Structuration des résultats d'annotation et d'analyse......................................................22

2.2.1 Étude du lexique pour la reconnaissance automatique................................................22

2.2.2 Étude linguistique du lexique.......................................................................................23

3.1 Enjeu : prendre en compte la grande iconicité...............................................................26

3.2 Modélisation de l'espace de signation............................................................................28

3.2.1 Les entités.....................................................................................................................28

3.2.2 Les relations spatiales..................................................................................................30

3.3 Représentation des unités gestuelles...............................................................................32

3.3.1 Définition des problématiques......................................................................................33

3.3.2 Représentation des signes standards en contexte.........................................................36

3.4 Représentation des énoncés ...........................................................................................40

4.1 Reconnaissance et interprétation....................................................................................47

4.2 Génération et animation..................................................................................................48

4.3 Interaction gestuelle en Communication Humain-Machine...........................................50

5.1 Bilan................................................................................................................................52

5.1.1 Les corpus de LSF........................................................................................................52

5.1.2 Les représentations de la LSF......................................................................................52

5.2 Les perspectives..............................................................................................................53

5.2.1 Les corpus de LSF........................................................................................................54

5.2.2 Les représentations de la LSF......................................................................................57

5.2.3 Agents Gestuels............................................................................................................58

A. Braffort - " TALS »juin 2008

A. Braffort - " TALS »Juin 2008

CHAPITRE 1 - INTRODUCTION

1.1LA LANGUE DES SIGNES : POSITIONNEMENT SCIENTIFIQUE

1 Articulateur : toute partie mobile du corps sur laquelle on peut agir volontairement et qui est fonctionnelle dans la

A. Braffort - " TALS »Juin 2008

1 Loi no 2005-102 du 11 février 2005 " pour l'égalité des droits et des chances, la participation et la citoyenneté des

A. Braffort - " TALS »Juin 2008

Christian Cuxac.

1.2TRAITEMENT AUTOMATIQUE DE LA LANGUE DES SIGNES :

FORME PARLÉE ET FORME ÉCRITE

1 Forme parlée est entendue ici par opposition à forme écrite, indépendamment du canal vocal ou gestuel.

A. Braffort - " TALS »Juin 2008

1.3LE COEUR DE MES CONTRIBUTIONS :

1.Initiation des recherches en informatique sur la LSF. La LSF a été étudiée au

1 Proforme : configuration de la main qui représente un point de vue sur une entité précédemment introduite dans le discours.

8/70Figure 1: Schéma global.

A. Braffort - " TALS »Juin 2008

2.Premiers approfondissements des modèles. Certaines de ces problématiques ont

3.Élaboration d'un modèle consolidé et étude de la génération. Le cadre applicatif

Choisier et al. 08].

Aznar Bolot et al. 07].

A. Braffort - " TALS »Juin 2008

1.4STRUCTURE DU MÉMOIRE : UN DÉROULÉ LOGIQUE

10/70Figure 2: Recherches sur les corpus.

A. Braffort - " TALS »Juin 2008

11/70Figure 4: Cadres applicatifs.Figure 3: Modélisation de la langue des signes

A. Braffort - " TALS »Juin 2008

CHAPITRE 2 - CORPUS DE LSF

Figure 5: Recherches sur les corpus.

A. Braffort - " TALS »Juin 2008

2.1MÉTHODOLOGIES POUR L'ANNOTATION ET L'ANALYSE DE CORPUS

2.1.2).

2.1.1Nature des corpus de LS : du dessin à la capture de mouvements

Choisier & Collet 03.

1 IVT : International Visual Theatre : http://www.ivt.fr/

13/70Figure 6: Représentation du signe [SOURD]

A. Braffort - " TALS »Juin 2008

8). Mais leur nature intrusive a un impact sur la " naturalité » des gestes réalisés et donc sur la

Multon et al 05].

1 INJS : Institut National de Jeunes Sourds - http://www.injs-paris.fr/