[PDF] Recherche d’information dans un m´elange de documents ´ecrits



Previous PDF Next PDF







Les 100 verbes les plus fréquents en français (source CRNS) 1

Les 100 verbes les plus fréquents en français (source CRNS) 1er groupe 2ième groupe 3ième groupe 14 Trouver 15 Donner 17 Parler 18 Aimer 19 Passer 21 Demander 23 Sembler 24 Laisser 25 Rester 26 Penser 28 Regarder 33 Arriver 37 Chercher 40 Porter 42 Entrer 45 Appeler 46 Tomber 48 Commencer 50 Montrer 55 Arrêter 57 Jeter



Vocabulaire Progressif Du Francais Avance

depublicationsaaugmente,ilya3 (troispourcent)depublicationsenplus • Quand on fait une recette de cuisine, il faut respecter les proportions (= la quantite relative dechaque ingredient)



Parler et vivre en français - MEK (Magyar Elektronikus

Parler et vivre en français Jean-Christophe Giraud Ferenc Tóth Zita Tringli Ariane Zambeaux 2006 Bölcsész Konzorcium 0035-cimlap indd 135-cimlap indd 1 22006 09 12



tude comparative de corr lats prosodiques de marqueurs

2 1 Pr sentation des corpus fran ais et anglais Les occurrences des mots tudi s, quemm ent utilis s comme marqueurs discursifs, ont t extraites al atoirement de corpus oraux fran ais et anglais Les corpus fran ais correspondent



Recherche d’information dans un m´elange de documents ´ecrits

Les mod`eles du type “sac de mots” tel le mod`ele vec-toriel sont les plus utilis´es pour leur simplicit´e et leur robustesse Leur faiblesse provient du fait qu’ils n’uti-lisent que les statistiques d’apparition des mots dans les documents sans vraiment prendre en compte la s´emantique cr´e´ee par leur enchaˆınement Ces mod`eles



LA COMPRÉHENSION DU LANGAGE

questions ou les consignes), le vocabulaire (les mots que nous utilisons), les explications ou les histoires Lorsque l’enfant vieillit, ses habiletés de compréhension se raffinent et il est davantage en mesure de comprendre le langage plus abstrait, comme les blagues ou les expressions que nous utilisons



Lassimilation de voisement en français : elle vaut pour les

Beaucoup dÕaspects de lÕassimilation de voisement en fran ais sont assez consensuels : elle est r gressive et restreinte aux contacts entre obstruantes Elle est plus syst matique (ou plus compl te) lÕint rieur des mots quÕentre les mots Enfin, lÕid e que les 441



H eritage du Sanskrit Dictionnaire sanskrit-fran˘cais

ses mots constitutifs, par inversion des r egles d’euphonie [sandhi] Il faut ^etre conscient de la di erence de traitement entre les signes diacritiques du sanskrit et les lettres accentu ees du fran˘cais En fran˘cais, e et e sont au m^eme rang orthographique : \l es e" est avant \leur"



Utiliser les informations morphologiques l crit : pourquoi

types d'informa tions morphologiques sont utilis s lors de lÕacquisition de lÕorthogra phe correcte que de la moiti des mots en fran- taient les plus faciles orthographier ; les mots



CONCOURS COMMUN 2007 DES ECOLES DES MINES D’ALBI, AL´ ES

Epreuve de Fran¸cais´ (toutes fili`eres) Vendredi 11 mai 2007 de 14h `a 18h00 Instructions g´en´erales : Les candidats doivent v´erifier que le sujet comprend 4 pages num´erot´ees 1/4, 2/4, 3/4, 4/4 Les candidats sont invit´es a porter une attention particuli`ere a la r´edaction : les copies

[PDF] 1000 mots en français

[PDF] 1000 mots indispensables en français

[PDF] les 1000 mots les plus utilisés en francais

[PDF] les 500 mots les plus utilisés en français

[PDF] 1000 problèmes 6ème

[PDF] probleme mathematique niveau cm2

[PDF] clr 1000 problèmes cm corrigés 2001

[PDF] 900 exercices et problèmes ce2 pdf

[PDF] clr 900 exercices et problèmes ce pdf

[PDF] chiffre romain de 1 a 10000

[PDF] numération romaine 6ème

[PDF] numeration romaine

[PDF] 6000 en chiffre romain

[PDF] numération arabe

[PDF] 1001 inventions pdf francais

Recherche d"information dans un m´elange de documents

´ecrits et parl´es

Benoit Favre, Jean-Fran¸cois Bonastre, Patrice Bellot

Laboratoire d"Informatique d"Avignon - Universit´e d"Avignon339, chemin des Meinajaries - Agroparc BP 1228 84911 AVIGNON Cedex 9, France

T´el. : +33 (0)4 90 84 35 77 - Fax. : +33 (0)4 90 84 35 01 Courriel :{benoit.favre,jean-francois.bonastre,patrice.bellot}@lia.univ-avignon.frABSTRACT While advances have been made in structuring, indexing and retrieval of multimedia documents, we propose to study the less explored problematic of information retrieval on heteroge- neous media sets composed of written and spoken documents. The coverage of modalities in retrieved results seems to be an important part of the user"s information need. We show that this problematic is not satisfied by the usualbag-of-wordsmo- dels and we propose a method to balance modalities within the query expansion process of the probabilistic model. Few expe- riments have been carried out in this domain and we suggest that building evaluation data for the addressed media (text and speech) as well as other media (image...) is worthy to the multimedia information retrieval community.

1. Introduction

La quantit´e d"information rendue disponible par lesr´eseaux croit fortement chaque jour. Cette informa-tion repr´esente une grande richesse d`es lors qu"elle eststructur´ee et accessible. L"indexation et la recherched"information sont devenues des tˆaches primordialespour r´ealiser ces objectifs.

Avec l"apparition de nombreux documents mul-tim´edias, l"augmentation des capacit´es, des d´ebits etde la puissance de calcul, un besoin de recherche docu-mentaire multim´edia ´emerge, apportant de nouvellesprobl´ematiques.

La recherche documentaire sur des documents parl´esa ´et´e rendue possible en utilisant la reconnaissanceautomatique de la parole pour indexer les transcrip-tions grˆace `a des m´ethodes textuelles. Nous ´etudionsla recherche documentaire sur un corpus h´et´erog`ene,m´elange de documents ´ecrits et parl´es. Cette derni`ereparticularit´e implique de prendre en compte conjoin-tement la couverture et la pr´ecision des r´esultatsd"une recherche, afin de satisfaire l"utilisateur.

Une rapide introduction revient sur les concepts de larecherche d"information, puis un d´es´equilibre entre lesmodalit´es texte et parole est mis en´evidence lorsqu"onutilise les mod`eles du type "sac de mots". Enfin, unem´ethode d"´equilibrage dans l"expansion de requˆete estpr´esent´ee, avant de conclure sur le besoin de donn´eesd"´evaluation pour ce nouveau domaine de la recherched"information.

2. Recherche d"information

La recherche d"information explore uneprobl´ematique simple mais finalement mal d´efinie :"r´epondre au besoin en information d"un utilisateur".Dans le large champ d"application de la recherched"information, la recherche documentaire textuellea ´et´e le domaine le plus ´etudi´e. Elle consiste `aretrouver les documents remplissant le besoin eninformation d"un utilisateur. Celui-ci exprime leplus souvent ce besoin `a l"aide d"une requˆete ´ecrite(th`eme, expression, question...)

Des ensembles de donn´ees d"´evaluation (documents,requˆetes et r´ef´erentiels) sont mis `a disposition lorsde campagnes visant `a mesurer les performances desmod`eles et syst`emes de recherche d"information. Lescampagnes les plus connues sont les TExt Retrieval

Conferences (TREC

1) organis´ees par le National Ins-titute of Science and Technology (NIST), USA [11].

Les r´ef´erentiels d"´evaluation sont des listes de docu-ments, constitu´ees manuellement, s´eparant les docu-ments r´epondant `a une requˆete (appel´es pertinents)de ceux qui n"y r´epondent pas. Le plus souvent,les syst`emes de recherche documentaire renvoient unclassement des documents, les premiers ´etant les plussusceptibles de r´epondre `a la requˆete concern´ee. Lesdeux mesures des performances les plus r´epanduesen recherche documentaire sont la pr´ecision (pour-centage de documents pertinents pour un nombre dedocuments retrouv´es) et le rappel (pourcentage de do-cuments pertinents retrouv´es par rapport au nombretotal de documents pertinents).

2.1. Recherche documentaire audio

L"objectif de la recherche documentaire audio est deretrouver les documents parl´es satisfaisant un utili-

sateur.´Evalu´ee lors de la piste TRECSpoken Do-cument Retrieval(SDR), elle propose d"indexer lestranscriptions de documents contenant de la parolejournalistique. Les transcriptions sont r´ealis´ees pardes syst`emes de reconnaissance automatique de la pa-role et contiennent une part d"erreurs qui fait dimi-nuer les performances de la recherche documentairetextuelle classique.

Des m´ethodes d"enrichissement de requˆete [8] ont per-mis de rehausser les r´esultats sur des transcriptionserron´ees au niveau de ceux des transcriptions ma-nuelles lors de l"utilisation de mod`eles du type "sacde mots". Un certain nombre de probl´ematiques li´ees`a la nature intrins`eque des documents parl´es n"ont pas´et´e suffisamment explor´ees lors de ces ´evaluations [2] :-la longueur des requˆetes (il faut pousser l"utilisateur

`a formuler des requˆetes plus longues);-la localisation de l"information pertinente (naviga- tion et r´esum´e de parole);-l"indexation dans des environnements vari´es

(conversations, requˆetes parl´ees, fort taux d"er-reur...);-l"utilisation des sp´ecificit´es de la reconnaissance de

la parole (mod`eles de langage, identit´e du locuteur,scores de confiance, prosodie...);-la recherche documentaire sur des contenus

h´et´erog`enes et multim´edias.1 http ://trec.nist.gov

2.2. Recherche multim´edia

La recherche d"information s"oriente vers le traitementdes documents multim´edias. L"information est alorscontenue dans le texte, l"audio et les images (fixes ouanim´ees) qu"il faut analyser, structurer et indexer afinde pouvoir les exploiter. L"extraction d"informationsde bas et haut niveau diff`ere beaucoup selon le m´ediatrait´e. Il faut alors corr´eler les m´edias pour pouvoir enretirer de l"information. La piste vid´eo [6] de TRECest un bon exemple de campagne d"´evaluation explo-rant certains domaines de la recherche d"informationmultim´edia.

Divers types de recherche multim´edia peuvent ˆetre en-visag´es. Il est possible d"utiliser un m´edia pour en re-trouver un autre : ceci a permis d"am´eliorer significa-tivement les performances de la recherche d"informa-tion sur les images, en associant aux caract´eristiquesde bas niveau, tels que les couleurs ou la texture, lesconcepts extraits du texte entourant les images [9].

Une recherche documentaire sur des corpush´et´erog`enes regroupant des documents de m´ediasdiff´erents doit aussi ˆetre envisag´ee. Ce dernier typede recherche d"information apporte de nouvellesprobl´ematiques et pose notamment la question dutaux de couverture des diff´erents m´edias dans lesr´esultats. En effet, en prenant l"exemple du m´elangede documents textuels et de transcriptions de parole,le besoin en information de l"utilisateur demandela consid´eration conjointe des notions de pr´ecisionet de couverture en m´edias des r´esultats. Afin quel"utilisateur soit correctement inform´e, il faudralui pr´esenter `a la fois les articles de presse et lesinterviews radiodiffus´ees correspondant `a sa requˆete.

Il ne semble pas exister de donn´ees d"´evaluation pourla recherche documentaire sur des corpus h´et´erog`enescomme ceux que nous ´etudions. Nous avons doncchoisi de rassembler les documents, requˆetes etr´ef´erentiels fournis pour les pistesAdhocetSDRde TREC-8 [2] car ils sont de nature similaire. Lesr´ef´erentiels d"une modalit´e sur l"autre n"´etant pasfournis, un moyen de d´eterminer si la couverture enmodalit´es est respect´ee doit ˆetre trouv´e.

3. D´es´equilibre entre texte et parole

Les mod`eles du type "sac de mots" tel le mod`ele vec-toriel sont les plus utilis´es pour leur simplicit´e et leurrobustesse. Leur faiblesse provient du fait qu"ils n"uti-lisent que les statistiques d"apparition des mots dansles documents sans vraiment prendre en compte las´emantique cr´e´ee par leur enchaˆınement. Ces mod`elespermettent d"indexer conjointement des documentstextuels et des documents parl´es.

3.1. Analyse de l"information

Nous analysons, `a travers le pouvoir discriminantdes mots, le d´es´equilibre provoqu´e par les nouvellesprobl´ematiques de couverture induites par le besoinen information de l"utilisateur.

Le mod`ele vectoriel [1] :Les mots composant lesdocuments sont utilis´es comme entr´ees de l"index. Ilssont appel´esattributsoutermesd"indexation. Pouram´eliorer la recherche documentaire, les mots `a faiblevaleur s´emantique hors contexte (stop words) sontsupprim´es alors que les autres sont r´eduits `a leur ra-cine (stemming) [3]. Dans ce mod`ele, les documentssont repr´esent´es dans un espaceDdont les dimensionssont lesattributsqui les composent.

dj? D,?dj= (w1,j,...,wn,j) o`un=card(A)(1) Leswi,jsont les poids associ´es `a chacun des attri- butsai? A(ensemble des attributs) pour le docu-ment repr´esent´e par le vecteur

?dj. Les requˆetes sontrepr´esent´ees dans ce mˆeme espace selon les attributsqui permettent de les qualifier.

?q? D, ?q= (w1,q,...,wn,q)(2) Les documents sont class´es selon leur similarit´e `a une

requˆete. La similarit´ecosineest fr´equemment utilis´ee,d´efinie par le cosinus de l"angle entre le vecteur docu-

ment ?djet celui de la requˆete?q. s(?dj,?q) =?dj·?q| ?dj||?q|(3) o`u|?x|repr´esente la norme de?xet·est le produitscalaire.

Il existe diff´erentes fa¸cons de pond´erer lesattributsdans les documents [5]. Si cesattributssont destermes, la pond´erationtf×idf(term frequency×inverse document frequency) est utilis´ee. Elle peutprendre la forme suivante :

w i,j=tfi,jidfi= log(tfi,j+ 1)logNn i(4) o`utfi,jest le nombre d"occurrences de l"attributai

dans le document?dj,Nest le nombre de documentsde la collection etniest le nombre de documentsdans lequel l"attributaiapparaˆıt.tfrepr´esente l"im-portance d"unattributdans un document alors qu"idfrepr´esente son pouvoir discriminant dans la collection.

Les graphes d"idf:Lesidf(idfi= logNn

i) per-

mettent d"´equilibrer le poids destermesd"indexationdans un corpus en d´efinissant leur pouvoir discrimi-nant pour les documents qui les contiennent. Cettemesure est utilis´ee dans de nombreux domaines de larecherche d"information pour saisir des propri´et´es glo-bales des corpus. Nous comparons les modalit´es paroleet texte `a travers les graphes d"idfpr´esent´es dans lesfigures 1, 2 et 3.

Dans la figure 1, le nuage central (c,d) repr´esente lestermescommuns aux deux modalit´es, plus un pointest ´eloign´e de l"axey=x, plus le d´es´equilibre estgrand; les points d"idf´elev´e (d) semblent ˆetre r´epartisselon des paliers pr´ecis, ce ph´enom`ene est dˆu `a l"in-verse d"un nombre entier dans l"idfet repr´esente lestermesles plus rares donc les plus discriminants; lestermesdont l"un desidfest nul n"apparaissent pasdans une des deux modalit´es et sont situ´es sur lesaxesx= 0 (a) ety= 0 (b). 0

2 4 6 8 10 12 14

0 2 4 6 8 10 12 14

speech text idf text/speech y=x ParoleTexte(a)(b)(c)(d)Fig. 1:graphe d"idfentre les mots issus de l"audio et ceux

du texteDans la figure 2, lesidfdu texte sont beaucoup plusproches de ceux du m´elange que lesidfde la parole; ceph´enom`ene est dˆu en partie `a la diff´erence de quantit´eentre les modalit´es.

0 2 4 6 8 10 12 14

0 2 4 6 8 10 12 14

mix textidf text/mix y=x 0 2 4 6 8 10 12 14

0 2 4 6 8 10 12 14

mix speechidf mix/speech y=xtexte compar´e au m´elange parole compar´ee au m´elange Fig. 2:Graphes d"idfpour comparer les modalit´esDans la figure 3, les sous-collections choisies

al´eatoirement sont tr`es repr´esentatives de l"ho-mog´en´eit´e des modalit´es (figures de gauche); les sous-collections de p´eriodes temporelles diff´erentes (figuresde droite) montrent que le d´es´equilibre d"idfest dˆuaux sujets abord´es dans les sous-collections.al´eatoire temporel

0 2 4 6 8 10

0 2 4 6 8 10

text textidf text/text rand y=x 0 2 4 6 8 10

0 2 4 6 8 10

text textidf text/text max y=xCoh´erence de la modalit´e texte 0 2 4 6 8 10

0 2 4 6 8 10

speech speechidf speech/speech rand y=x 0 2 4 6 8 10

0 2 4 6 8 10

speech speechidf speech/speech max y=xCoh´erence de la modalit´e parole

Fig. 3:Coh´erence des modalit´esPour compl´eter l"´etude, une ´evaluation manuelle des

requˆetes sur les modalit´es crois´ees est op´er´ee. Lesr´esultats sur 20% des requˆetes propos´ees dans TREC-8SDRetAdhocsont pr´esent´es dans la table 1.L"´evaluation est r´ealis´ee en utilisant le moteur derecherche SMART2(disponible pour la recherche et´evalu´e lors de nombreuses campagnes [4]).Tab. 1:Pr´ecision `a 30 documents apr`es ´evaluation de 20%

des requˆetes : la modalit´e parole est tr`es peu retrouv´ee.AdhocSDR documents ´ecrits0,410,28 documents parl´es0,090,31 documents m´elang´es0,410,39 Les r´esultats de l"analyse des modalit´es texte et pa-

role montrent un d´es´equilibre dont la source n"estpas ais´ement appr´eciable. Nous sugg´erons que ced´es´equilibre est dˆu `a l"inad´equation des donn´ees au ni-veau de leur r´epartition temporelle (les sujets abord´esdans l"actualit´e ´evoluent dans le temps) et leurd´es´equilibre quantitatif. Ces conclusions soulignentla n´ecessit´e de constituer des donn´ees d"´evaluationd´edi´ees `a ce domaine particulier.

3.2. R´e´equilibrage dans l"expansion de

requˆete

Nous proposons une m´ethode d"´equilibrage entre lesmodalit´es texte et parole `a travers l"expansion derequˆete. Bien que le processus d"expansion de requˆetesoit possible pour le mod`ele vectoriel, il est plus faciled"introduire les diff´erences entre les modalit´es dans lemod`ele probabiliste (un autre mod`ele du type "sac de2

ftp ://ftp.cs.cornell.edu/pub/smartmots" pr´esentant des performances similaires mais un cadre th´eorique plus d´evelopp´e).

Le mod`ele probabiliste [7] :L"ensemble des docu-ments est partitionn´e en deux sous-ensembles : les do-cuments pertinents et les documents non pertinents.On cherche `a d´eterminer si un document (choisi lorsde l"´ev´enementDj) est pertinent (´ev´enement not´eL,

commeLiked) dans le cadre d"une requˆete. La r`egle ded´ecision appliqu´ee peut ˆetre vue comme une fonctionde classement :

score(Dj) =P(L|Dj)P(L|Dj)(5) o`uP(L|Dj) est la probabilit´e que l"utilisateuraime

le documentDjetP(L|Dj) est la probabilit´e qu"il nel"aimepas. Le th´eor`eme de Bayes permet de r´ecrireles probabilit´es conditionnelles :

score(Dj) =P(Dj|L)P(L)P(Dj|L)P(L)(6) D

jpeut ˆetre repr´esent´e par les attributsaiqui lecomposent. Pour simplifier les calculs, on supposeque les attributs sont ind´ependants [10]. Cette hy-poth`ese n"est pas forc´ement justifi´ee mais elle per-met de r´eduire la complexit´e du mod`ele. SoitAi,l"´ev´enement associ´e `a unattributai:

score(Dj) =? iP(Ai|L)? iP(Ai|L)P(L)P(L)(7) L"ensemble des documents pertinents est constitu´e de

fa¸con it´erative. C"est l"utilisateur, ou un processus enaveugle, qui d´etermine la partie de l"ensemble des do-cuments pertinents servant `a l"it´eration suivante de larecherche.

Expansion de requˆete [1] :Le comportementit´eratif du mod`ele probabiliste m`ene directement `al"expansion de requˆete. Ce processus a ´et´e mis aupoint en remarquant que l"utilisateur passe beaucoupde temps `a reformuler ses requˆetes. Il s"agit d"ajusterautomatiquement le poids destermesde la requˆeteet de l"´etendre `a d"autrestermesreli´es. Lorsque l"ex-pansion se fait en aveugle, les interactions avec l"uti-lisateur sont r´eduites, mais la qualit´e de recherche esttributaire de la premi`ere it´eration.

Une m´ethode de r´e´equilibrage :La fonction depond´eration propos´ee par Robertson pour l"expansionde requˆete dans le mod`ele probabiliste est reformul´eede fa¸con `a prendre en compte les modalit´es et leursdiff´erences.

La pond´eration d"un attribut est d´efinie par : weight i= logPi(1-P i)P i(1-Pi)(8) avec, lorsque les documents sont tous dans la mˆeme modalit´e : P i=P(ti|L) estim´ee parpi=riR(9) P i=P(ti|L) estim´ee parp i=ni-riN-R(10) o`uLest l"´ev´enementLiked,Ll"´ev´enementnot Liked,r

iest le nombre de documents pertinents o`u apparaˆıtle termeti,nile nombre de documents o`u apparaˆıtti,Rle nombre de documents pertinents etNle nombrede documents de la collection. SoitMl"ensemble desmodalit´es.Piest exprim´ee en fonction des modalit´es

M? M: P i=?

MP(ti?M?L)P(L)

MP(ti|M?L)P(M|L)(11)

P(M|L) est ainsi isol´ee et correspond `a la probabilit´equ"un document soit d"une modalit´e donn´ee quandil est pertinent. Nous pouvons fixer cette probabilit´een prenant pour hypoth`ese qu"elle est la mˆeme pourtoutes les modalit´es.

?M? M, P(M|L) =P(M|L) =1|M|(12) o`u|M|est le nombre de modalit´es.P(ti|M?L) et

P(ti|M?L) peuvent ˆetre estim´ees par :

p(ti|M?L) =ri,MR M(13) p(ti|M?L) =ni,M-ri,MN

M-RM(14)

o`uri,M,ni,M,RMetNMsont d´efinis commepr´ec´edemment mais dans la modalit´eM. Ceci per- met d"obtenir les estimations dePietP i: p i=1|M| Mr MR M(15) p i=1|M| Mn M-rMN

M-RM(16)

L"expansion se fait en aveugle, lesRpremiersr´esultats ´etant consid´er´es comme pertinents pourconstruire l"ensembleR, ensemble des documents per-tinents. Il faut ´equilibrer les r´esultats en prenant l"hy-poth`ese que l"utilisateur aaim´eautant de documentsde chaque modalit´e lors de l"it´eration pr´ec´edented"une strat´egie de recherche. Ceci peut se traduireparRM=R,?M? M.

Le second aspect de l"expansion de requˆete est l"ajoutde termes `a la requˆete d"origine. Une valeur des´election permet de d´ecider quels termes ajouter `ala requˆete et quels poids leur donner. Cette valeur estd´efinie par Robertson comme ´etant :

offerweight i= (pi-p i)wi(17)

Il pr´ecise quep

ipeut ˆetre ignor´e car il est tr`es petitdevantpi, ainsi quewiest une pond´eration du termeinterpr´etable parweightmod

i(obtenu en rempla¸cant p ietp idansweighti). Sipiest pris dans (15),1|M|RMest le mˆeme pour tous les termes, d"o`u : offerweightmod i=? Mr

Mweightmod

i(18) Grˆace `a ces formulations, il est possible de construire

une requˆete pour la nouvelle it´eration d"expan-sion en aveugle, capable d"´equilibrer les r´esultats enmodalit´es. L"´evaluation de cette m´ethode n´ecessited"´elaborer des donn´ees de test. Nous sommes actuelle-ment en phase de recherche de partenaires pour r´eunirdes donn´ees d"´evaluation pour la recherche documen-taire sur des corpus h´et´erog`enes tels que ceux utilis´esdans nos travaux.

4. Conclusions et Perspectives

Nous avons abord´e dans cet article la recherche d"in-formation multim´edia sur des corpus h´et´erog`enescontenant des documents ´ecrits et des transcrip-tions de documents parl´es. Ce domaine, peu explor´e,de la recherche documentaire apporte de nouvelles

probl´ematiques comme celle de la couverture en mo-dalit´es des r´esultats d"une recherche. En analysant lepouvoir discriminant des mots, nous avons mis enlumi`ere le d´es´equilibre entre les modalit´es et pro-pos´e une m´ethode d"´equilibrage au travers de l"ex-pansion de requˆete. Regrettant l"absence de donn´eesd"´evaluation dans ce domaine, nous proposons d"en-gager la voie d"une campagne d"´evaluation d´edi´ee `acette probl´ematique.

Nous avons ´etudi´e les mod`eles de type "sac de mots"dans cet article, pour leur robustesse et leur simpli-cit´e. Les m´ethodes utilis´ees en Traitement Automa-tique de la Langue (TAL) peuvent donner de bienmeilleurs r´esultats sur les documents ´ecrits lorsquel"information recherch´ee est plus cibl´ee, mais de-mandent `a ˆetre adapt´ees `a l"oral. La parole admetde nombreuses sp´ecificit´es, qu"il serait bon d"´etudierpour la recherche documentaire, notamment le suivide locuteur dans une conversation (structure de l"ar-gumentation, ´el´ements contextuels), les ph´enom`enesdu type h´esitations, reprises, coupures, b´egaiementsou la prosodie. D´evelopper des m´ethodes prenanten compte ces sp´ecificit´es permettra d"aborder lesprobl´ematiques de questions/r´eponses et de r´esum´eautomatique de parole tout en approfondissant cellesde la recherche documentaire.

R´ef´erences[1]Ricardo Baeza-Yates and Berthier Ribiero-Neto. Modern Information Retrieval. Addison Wesley,1999.[2]John S. Garofolo, Cedric G. P. Auzanne, and El-

len M. Voorhees. The trec spoken document re-trieval track : A success story. InThe Eighth TextREtrieval Conference, 2000.[3]David A. Hull. Stemming algorithms : A

case study for detailed evaluation.Journal ofthe American Society of Information Science,47(1) :70-84, 1996.[4]G. Salton. The smart retrieval system - experi-

ments in automatic document processing, 1971.[5]G. Salton and C. Buckley. Term weighting ap-

proaches in automatic text retrieval.InformationProcessing and Management, 24(5), 1988.[6]Alan F. Smeaton, Paul Over, and R. Taban. The

TREC-2002 video track report. InThe EleventhText REtrieval Conference, 2002.[7]K. Sp¨arck Jones, S. Walker, and S. E. Robert-

son. A probabilistic model of information retrie-val : development and status. Technical report,Computer Laboratory, University of Cambridge,1998.[8]Karen Sp¨arck Jones, P. Jourlin, S. E. Johnson,

and P. C. Woodland. The Cambridge Multime-dia Document Retrieval Project : summary of ex-periments. Technical report, University of Cam-bridge, Computer Laboratory, 2001.[9]Rohini K. Srihari, Aibing Rao, Benjamin Han,

Srikanth Munirathnam, and Xiaoyun Wu. Amodel for multimodal information retrieval. InIEEE International Conference on Multimediaand Expo (II), pages 701-704, 2000.[10]C. J. Van Rijsbergen.Information Retrieval.Butterworths, 1979.[11]Ellen M. Voorhees and Donna Harman. Over-

view of the eighth text retrieval conference (trec-8). InThe Eighth Text REtrieval Conference,1999.quotesdbs_dbs22.pdfusesText_28