[PDF] [PDF] Une approche uniforme pour la reconnaissance de la - CORE

2 2 Normes et architectures r egissant les documents 4 11 Sch ema de repr esentation d'une entit e physique rarchique des entit es physiques La fusion 



Previous PDF Next PDF





Religion et société: Les Réguliers et la vie régionale dans les

structurent l'espace public de la curiosit? et la hi?rarchie des normes entre l' accep table Dominique DI NET, La vision sch?matique d'un Religion et soci?t ?:



[PDF] Une approche uniforme pour la reconnaissance de la - CORE

2 2 Normes et architectures r egissant les documents 4 11 Sch ema de repr esentation d'une entit e physique rarchique des entit es physiques La fusion 



[PDF] UNIVERSITÉ DU QUÉBEC EN OUTAOUAIS ÉTUDE DE

22 nov 2004 · approfondie des diverses normes mondiales de réseau sans fil Le protocole hybride Le premier, appelé le PDU de contr le ou encore le canal de transport court (SCH) 3 4 2 ©veloррemen hi©rarchique du r©seau 802 11



[PDF] Public Servants Disclosure Protection Act Loi sur la protection - ILO

Normes de sécurité 44 (a) Schedule 1 by adding the name of any Crown cor- poration or other rarchique, à l'agent supérieur ou au commissaire, ou aux



[PDF] Sources dinformation sur les bases de données - Enssib

R6pertoire des Normes Air avec mise 6 jour - STA6 - 90 F V - Normes GAM ( Sp6cifications PrSsentation hi^rarchique oxl les chaines hiSrarchiques du thSsau- rus sont classes par ordre 1980 SEMINAR SCHEDULE (Fourth Quarter)



[PDF] Treaty Series Recueil des Traites - Marine Regions

employees of France in Canada (with schedule) Signed at Ottawa vue technique (utilisation du spectre de fr6quences, application des normes techniques au membre de la Cour suivant imm~diatement dans la hi~rarchie et qui n'est pas



[PDF] LA THEORIE DOLIVIER BEAUD - ANAYASAGENTR

seur Beaud, il y a un rapport hie"rarchique entre le pouvoir consti tuant et le que la norme posee par le pouvoir de revision a la meme valeur juridique que rarchie des normes Sch£matiquement on peüt rösumer cette premiere etape



[PDF] STRUCTURES ET METHODES DE DIRECTION DANS LA

2°) En ce sens, la fixation de "normes" ainsi que des conditions dans les- rarchique et, par voie de conséquence, dans le choix à en faire comme dans la forma- l'Order and Schedule Division dirigée par un Manager (95 personn~s),  

[PDF] étude de roman la fée carabine

[PDF] pyramide de kelsen pdf

[PDF] magistrature romaine république

[PDF] magistrature romaine synonyme

[PDF] magistrature romaine definition

[PDF] exercice magistrature rome antique

[PDF] quel est le nom du premier magistrat de rome

[PDF] charge d un magistrats romains 7 lettres

[PDF] nom du premier magistrat de rome en latin

[PDF] magistrature definition

[PDF] pascal pensées texte intégral pdf

[PDF] prince paul

[PDF] dj kool herc

[PDF] afrika bambaataa

[PDF] le mouvement hip hop histoire des arts

Institutd?InformatiqueUniversit?edeFribourg?Suisse?Uneappro cheuniformep ourlareconnaissancedelastructurephysiquededo cumentscomp ositesfond?eesurl?analysedesespacesTHESEpr?esent?ee?ala facult?e desSciencesdel?Universit?edeFrib ourg ?Suissep our l?obtention dugradedeDo ctor scientiarum informaticarumAntoine SourouAZOKLYdePorto?NovoR?epubliqueduB?eninTh?eseNo????Imprimeries CentralesNeuch?atelSA??

Accept?ee parlaFacult?edesSciences del?Universit?edeFrib ourg ?Suisse?sur laprop osition desProfesseurs RolfINGOLD?Universit?ede Frib ourg Suisse? GeorgesSTAMON?Universit?ede ParisVFrance? et KarlTOMBRE?INRIALorraine Nancy France??Frib ourg le o ctobre ???Le Doyen?Prof?Jean?PaulBERRUT

?amon p?ere?tous ceux que j?aimeet auxenfants orphelins de la b?etise humaineau Rwandaeten exYougoslavie

iiTABLE DES MATI

TABLE DES MATI

ivTABLE DES MATI ???v ListedesTableaux?Unit?es typ ographiques usuelles en TE viiiLISTE DES TABLEAUX

AbstractWepresentinthisthesisauniformapproachtorecognize thephysical structureofprinteddo?cuments that may contain various kinds of blo cks?wecallsuch do cumentscomposite documents?After an intro duction to the sub ject of this thesis we present rst the state of the art in the eld ofdo cument recognition?In this part we present mo dels and standards used to represent do cumentstructures?The remaining part of this rep ort is devoted to our own research?We start our study by mo delling thecomposite documents?In this part we describ e the genericphysicalstructureofcomp ositedo cumentsaswellasamo dellingofwhitespaces?background?in such do cuments?Our systematical study of white spaces in do cuments leads on one hand toasetof rules that we use to guide microstructure recognition andon theother handtoanewlanguage todescrib e acommonlayoutofdo cuments

whichare memb ersofasameclass?Suchdescriptions have b een used to guide macrostructure recognition?Basedonthewhitespacesmo dellingwehavedevelop edauniformapproachenablingustorecognizethephysicalstructureofcomp ositedo cumentsandtoestimateautomaticallyallparameters used?Our approach combining b oth ascending and descending strategies consists oftwolevels??The microstructure recognition?this pro cess is guided by rules wehave develop ed to mo deltheusualgraphicalasp ectofmicrostructures?Therecognitionisbasedonaconnectedcomp onent classication?The analysis of textual blo cks as well as mathematical expressionsis realized by a hierarchically merging metho d while tables are analysed by a hierarchicallysplitting metho d??The macrostructure recognition?this pro cess starts by segmenting a do cumentinto regionsand nishes by segmenting the regions into blo cks?The segmentation in

to regions is guidedby a description of the do cument class?The region segmentation into blo cks is realized byahierarchically splitting metho d?Allmetricparametersusedforsegmentationhaveb eenautomaticallyestimatedbyageneralmetho d wehave dened this metho d is based on a statistical study of white spaces?The last partof this thesis presents a qualitativeaswellasaquantitativeevaluation of the develop ed recognitionmetho ds?This rep ort is concluded byasynthesis?KEYWORDS? Do cument formattingDo cument Mo dellingDo cument representation standardsSegmentationDo cument recognitionPage De?nition LanguageStructural analysisStatistical classi?cationTree metricix

xLISTE DES TABLEAUX

R?esum?eNous pr?esentons dans cette these une appro che d?analyse uniforme p our la reconnaissance de lastructurephysiquedesdo cumentsacontenuvari?e?Apresuneintro ductionalaprobl?ematiquetrait?ee dans cette these nous pr?esentons une synthese des traitements usuels dans le domaine dela reconnaissance des do cuments?Dans cette synthese nous pr?esentons aussi les structures usuellesde repr?esentation et les normes r?egissant les do cuments?La suite est consacr?ee alarecherche quenous avons men?ee?Nous commencons notre analyse par une mo d?elisation desdocuments compositesauxquels nousnoussommesint?eress?es?Danscettepartienousd?ecriv

onslastructurephysiqueg?en?erique desdo cumentscomp ositesainsiqu?unemo d?elisation desespacesino ccup?es ?lefond?danslesdo cu?ments?Notre?etudesyst?ematiquedesespacesd?eb ouched?unepartsurunensembledereglesservanta guider la reconnaissance desmicrostructures etd?autre partsurun nouveau langagededescriptiondesclassesdedo cumentsquenousutilisonspourguiderlareconnaissancedesmacrostructures?Pour la reconnaissance de la structure physique des do cuments comp osites nous avons develop?p?e une appro che d?analyse qui est a la fois uniforme et capable d?estimer de facon automatique tousles parametres utiles a son b on fonctionnement?Cette appro che fond?ee sur une mo d?elisation des

espaces et combinant une strat?egie d?analyse ascendante avec une autre descendante se comp osede deux niveaux d?analyse ??Lareconnaissance des microstructuresest guid?ee par des regles que nous avons ?etablies lorsde notre mo d?elisation des asp ects graphiques usuels des microstructures?Cette reconnais?sancecommenceparuneclassi?cationdescomposantesconnexes?L?analysedesblo csdetexte et des expressions math?ematiques est r?ealis?ee par une m?etho de de fusion hi?erarchiquesuivant desregles?L?analysedestableauxest r?ealis?ee par unem?etho demixtecombinantune appro che de fusion hi?erarchique et une autre de d?ecoup e hi?erarchique??Lareconnaissance des macrostructures

complete celle des microstructures?Elle d?ebute parunesegmentationdesdo cumentsenr?egionsetnitparunesegmentationdesr?egionsenblo cs?La segmentation en r?egions est guid?ee par une description de la classe du do cumenttrait?ealorsquelasegmentationd?uner?egionenblo csestr?ealis?eeparunem?etho deded?ecoup e hi?erarchique?Lesseuilsm?etriquesdesegmentationutlis?esont?et?eestim?esdefaconautomatiqueaumoyend?une m?etho de g?en?

erale bas?ee sur une ?etude statistique des espaces ino ccup?es?La derniere partiedu m?emoire est consacr?ee al??evaluation aussi bien qualitative que quantitative des m?etho des dereconnaissance d?evelopp?ees ainsi qu?a une synthese des travaux r?ealis?es?MOTSCL

?ES?Formatagededo cumentsMo d?elisationdedo cumentsNormes derepr?esentationdesdo cumentsSegmentationReconnaissance de do cumentsLanguage de d?e?nition de pagesAnalysestructurelleClassi?cation statistiqueM?etrique des structures arb orescentesxi

Chapitre?Intro ductionG?en?erale???Laprobl?ematiqueLa communication pro c?ed?ed??echange d?informations et de connaissances est fondamentale danstoute so ci?et?e?Malgr?e les p ouss?ees technologiques de ces dernieres ann?ees en matiere des t?el?ecom?municationsetdelapro ductiondedo cuments ?electroniquesledo cumentpapier n?enrestepasmoinsunsupp ortprimordial?Eneetlesjournauxleslettresadministrativeslesmagazinesdetousgenreslesrevuesscientiquesleslivressontautantdedo cumentsimprim?esdontlapro duction ne cesse d?augmenter??????Le

do cumentdup ointdevueinformatiqueSil?onser?eferealad?enitiondudictionnaireLEPETITROBERTundo cumentesttoutcequisertainstruireasavoir?tout?ecritservantdepreuveouderenseignementtoutcequisertdepreuvedet?emoignagetoutepiecequip ermetd?identierunemarchandiseencoursdetransp ortetc?Dup ointdevueinformatiqueundocumentestg?en?eralementd

?enipartoutcequel?onpro duitdistribueutiliseougardelorsd?unpro cessusdecommunication ?ecriteou?electroniqueparcons?equentundo cumentp eut

etrequali?edephysiqueou?electronique?Ondistingueen fonction de la nature du supp ort app el?emediumetde l?instrumentavec lequel on?ecritplusieurstyp esdedo cuments?lesdo cumentsmanuscritslesdo cumentsimprim?eslesdo cuments ?electroniques les do cuments audioles do cumentsvid?eos lesdo cumentsmultim?ediacombinant dans un seul do cument tous les autres typ es de m?edia?Dans cette these nous traitons

leprobleme dela reconnaissance des do cumentsimprim?es?Cettereconnaissance a p ourbutdeconvertir des do cuments papiers dans une forme ?electronique??????L?inter?etdelareconnaissancedesdo cumentsLes innovations technologiques au rang desquelles l?ordinateur et l?informatique ontcontribu?eaabaisser le co

ut de pro duction des do cuments tout en am?eliorant l?ecacit?edu mat?eriel ainsi quecelle des systemes informatiques utilis?es p our la pro duction?Souvent ces innovations entra

nentdes changements dans la maniere de repr?esenter les do cuments cr?eant ainsi des incompatibilit?esavec les do cuments existants?Alors dans le soucis d?une part d?uniformiser les vieux do cuments?papiers ou ?electroniques? avec les nouveaux et d?autre part de faire face a l?augmentation crois?santeduvolumedesdo cumentsdes

systemesinformatiquesdeplusenplusp erformantssontrequis?Il s?agit par exemple ??dans le domaine bancaire de la lecture automatique des bulletins de vers?ement?dans le domaine p ostal du tri automatique des courriers

CHAPITRE ??INTRODUCTION G

?EN

?ERALE?dans le domaine biblioth?ecaire de la classication automatique de do cuments?dansledomaine ?editorialdelar?etro conversion automatiquededo cumentspapiersauneforme ?electronique c?est la r?ecup?eration de l?existant?etc?Ces traitements pro curent des avantages consid?erables aussi bien sur les plans ?economique organ?isationnelqu??ecologique ?partage del?informationacces plusrapideal?informationr?eductiondes co

uts de saisie de nouvelles informations r?eduction des espaces de sto ckage r?eduction des fraisli?es a l?infrastructure n?ecessaire p our l?archivage des do cuments papiers????Lob jetdecetteth?ese?????MotivationsLes premiers travaux r?ealis?es dans notre ?equip e de recherc

he ont trait?e le probleme de la reconnais?sance de la structure logique des do cuments imprim?es?Cette reconnaissance consiste ad?eterminerl?organisation hi?erarchique du contenu d?un do cument en partant de l?image digitalis?ee au moyend?unscannerdespagesdecedernier?Lareconnaissanceestbas?eesurunesegmentationdesimagesquiconsisteapartitionnercesdernieres enblo cshomogenes?Denosexp?erimentationsnousavonsrelev?elan?ecessit?ededisp oserd?unem?etho dedesegmentationplusrobusteetplusable p our p ouvoir traiter des do cuments de contenuvari?e ?textes expressions math?ematiquestableauxgraphiques

etphotographies??Cetteobservationa?et?elepointded?epartdenosin?vestigations dans ce domaine?En outre notre int?er

et p our la segmentation a ?et?e renforc?epar lefait que p our un b on nombre d?applications par exemple dans le domaine biblioth?ecaire il n?estpas n?ecessaire d?avoir recours ni a un systeme de reconnaissance optique des caracteres ni aunsysteme de reconnaissance de structures logiques?C?est le cas par exemple dans la compressionl?archivage ou la classication des do cuments??????Ob jectifsNousd?esignonsparstructurephysiquelad?ecoup ehi?erarchiqueenblo cshomogenesp ercueparl?il lorsque l?on regarde une page de do cument?La reconnaissance de la structure physique d?undocument est r?ealis?ee a partir de la segmentation de ses pages?L??etude des techniques courantesde segmen

tation que nous avons r?ealis?ee a r?ev?el?e deux limites imp ortantes ??S?il?etaitp ossibledetrouverdestechniquessp?ecialis?eesp ourtraiterdesdo cumentstex?tuels des expressions math?ematiques des tableaux ou encore des blo cs graphiques il ?etaiten revanche plus dicile d?int?egrer celles?ci dans une appro che d?analyse uniforme p our lareconnaissance des do cuments de contenuvari?e?En eet l?utilisation de ces di?erentes tech?niques exigeait un ltrage manuel des blo cs p ouvant p erturb er le b on fonctionnementdelatechnique utilis?ee??La abilit?e des techniques d?ep endait avant tout d?une b onne estimation des seuils m?etriquesservant soit alad?ecoup e d?une entit?e en sous?entit?es plus homogenes soit alafusiondesentit?esenune

entit?edeniveauhi?erarchiqueplus?elev?e?Leproblemepos?eparlechoixautomatique de ces seuils n??etait pas trait?e?Danscettethesenouscontribuonsalar?esolutionduproblemepos?eparcesdeuxlimitesparled?evelopp ementd?uneappro ched?analyseuniformefond?eesuruneexploitationdesespacesn?impliquantaucunsystemedereconnaissanceoptiquedescaracteresetdanslaquellelesseuilm?etriques de segmentation sont estim?es de fa

con automatique? ???L?OBJET DE CETTE TH

?ESE????PlanLes deux premiers chapitres de cette these sont consacr?es al??etude de l??etat de l?art dans le domainede la reconnaissance des do cuments imprim?es ??Dans lechapitre nous pr?esentons lesstructures ainsi que lesnormes r?egissant les do cu?ments??Dans le chapitre nous pr?esentons un appp ercu des techniques de reconnaissance?D?unepartnoussituonsleproblemedelareconnaissancedestructuresphysiquesparrapp ortauprobleme g?en?eral dereconnaissancededo cuments?D?autrepartnouspr?esentons unesynthese des techniques de segmentation et d??etiquetage pr?esent?ees dans la litt?erature?Nousconcluons le chapitre sur les limites de ces techniques lesquelles limites seron

ta l?origine decette these?Notre travail de recherche a proprementditmotiv?e par leslacunes montr?ees par les techniquescourantes de segmentation et d??etiquetage s??etend du chapitreauchapitre ??Dans le chapitre nous pr?esentons une mo d?elisation des do cuments dits do cuments comp os?ites auxquels nous nous sommes int?eress?es?Nous concluons le chapitre par une descriptionde notre architecture de reconnaissance qui se comp ose globalement de deux parties?La premiere partie denotre architecture de reconnaissance d?ecrite duchapitre ? au chapitre est consacr?ee a la reconnaissance des microstructures??Danslechapitre?nous?etablissonsapresune?etudeexhaustivesurlatop ologielo caleentreentit?esphysiqueslesreglesdepro ductiongouvernan

tl?asp ectgraphiqueusueldesmicrostructures il s?agit la de la premiere originalit?edenotretravail??Danslechapitrenouspr?esentonsuneappro chemixtedereconnaissancefond?eed?unepart sur les regles de pro duction ?etablies au chapitre ? et d?autre part sur une analyse desespaces ino ccup?es??Dans le chapitre nous ab ordons de front un probleme souventpass?e sous silence dans lestechniques de segmentation classiques ?celui de la s?election automatis?ee des seuils m?etriquesde segmentation il s?agit ici de la deuxieme originalit?e de notre travail?La seconde partie de notre architecture de reconnaissance d?ecrite aux chapitres et ? est con?sacr?ee a la reconnaissance des macrostructures??Dans le chapitre nous d?enissons un nouveau langage qui p ermet de d?ecrire partiellementla macrostructure g?en?erique des do cuments a traiter puisqu?il n?existe p our la reconnaissancedes macrostructures aucune m?etho de universelle?Ce nouveau langage tien

t son originalit?edu fait que les do cuments sontd?ecrits par rapp ort aux espaces ino ccup?es ?c??a?d?lefonddudo cument? et non pas par rapp ort aux ob jets eux?m

emes??Dans le chapitre ? nous pr?esentons notre appro che de reconnaissance des macrostructures?Elle est guid?ee par une description g?en?erique de la classe du do cumenta traiter la descriptionest donn?ee dans le nouveau langage que nous pr?esentons dans le chapitre ?Danslechapitrenouspr?esentonsune?evaluationaussibienqualitativequequantitativedel?ensemble des m?etho des que nous avons mises au p oint dans cette these?A cet eet nous avonsd?eni dans l?espace des structures physiques une distance m?etrique servanta comparer entre?ellesdeux structures physiques?Dans le chapitre nous concluons ce m?emoire par une synthese destravaux r?ealis

?es et par les p ersp ectives?Les annexes sontorganis?ees comme suit ??A? grammairecompletedulangagededescriptiondesmacrostructuresg?en?eriques suivied?unexempledede?scription ?B? illustration d?autres r?esultats de reconnaissance suivis de nos remerciements et denotre curriculum vitae?

CHAPITRE ??INTRODUCTION G

?EN ?ERALE

Chapitre?Structuresetnormesr?egissantlesdo cumentsIntro ductionLors de l??elab oration d?un do cumentl?auteur r?edige son texteenterme d?encha

nement logiqued?id?ees tandis que le typ ographe en r?ealise la pr?esentation graphique qui aide le lecteur a mieuxsaisir le message de l?auteur?G?en?eralement une mauvaise mise en page conduira a une mauvaiseinterpr?etation du message d?elivr?e par l?auteur?Commetouttraitementinformatiquel?analysededo cumentsrep osentsurunmo deledesdonn?eesatraiterenl?o ccurrenceceluidesdo cuments?Eng?en?eralcemo deledoit

etreassezriche p our p ermettre des traitements vari

?es?Les traitements les plus courants dans le domaine del?analyse de do cuments sontla cr?eation ?pro duction? la mo dication l?impression la consultationla transmissionle sto ckage la recherche la reconnaissance etc?Le mo dele doit

etre ?egalementadapt?eselonlep ointdevuedel?op?erateur???logiquepourl?auteur??physiquep ourletyp ographe et ?? syntaxique s?emantique ou pragmatique p our le linguiste?Dans la section ?nous pr?esentons une synthese des structures usuelles p our la mo d?elisation des do cuments et dansla section ? les normes r?egissant ces structures????Structuresdedo cumentsOndi?erencieeng?en?erall?asp ectlogiqued?undo cumentdesonasp ectphysique?Cettedis?so ciationp ermetachaqueintervenan

tdetravaillersurledo cumentaunniveaud?abstractionqui corresp ond asespr?eo ccupations?Il s?agit par exemple p our l?auteur de la structure logiqued?ecrite a la section ?? et p our le comp ositeur de la structure physique d?ecrite a la section ???Dans la section ?? nous pr?esentons les structures de repr?esentation et dans la section ?? lasp?ecialisation des structures de do cuments?La section ??? est consacr?ee aux di?erents niveauxdegranularit?estructurellepr?esentsdansundo cument?Touslesmo delespr?esent?esdanscettesection sontvalables aussi bien p our la structure logique que p our la structure physique??????StructurelogiqueLastructurelogiqued?ecritl?organisationhi?erarchiquedutextecontenudansundo cumen

taumoyen d?entites logiquestelles que les chapitres les sections les titres les paragraphes les notesles citations les formules les tableaux les cellules ou les graphiques?Les entit?es logiques sont desconcepts servanta structurer le message de l?auteur en retour elles serventde reperes au lecteur??

CHAPITRE ?STRUCTURES ET NORMES R

?EGISSANT LES DOCUMENTSCetteabstractionorel?avantagederendreladescriptiondutextecontenudansundo cumentind?ep endant de tout supp ort physique??????StructurephysiqueLastructurephysique

?d?ecrit aumoyen d?entitesphysiquesl?organisation hi?erarchique desblo cstyp ographiques comp osant les pages d?un do cument?Les entit?es physiques sont des concepts ser?vanta structurer l?asp ect graphique d?un do cument elles d?ecriventla pr?esentation graphique desentit?es logiques?Notons que plus d?une structure physique p euvent

etre d?eriv?ees d?une m eme struc?ture logique invers?ement l?interpr?etation que l?on fait d?une structure ph

ysique p eut ?egalementconduire a des structures logiques di?erentes?????RepresentationOn distingue trois typ es de relations aussi bien au niveau logique que physique entre les entit?esd?un do cument??lalin?earit?eentre entit?es qui se suivent?lahi?erachieentre entit?es imbriqu?ees l?une dans l?autre?lacollat?eralit?eentre entit?es ind?ep endantes mais p ouvantse r?ef?erencer mutuellement?Le choix d?un typ e abstrait p ermettantded?ecrire l?organisation interne d?un do cument est guid?epar la nature des relations existantentre ses entit?es?Structurede listeUne structure de liste est utilis?ee p our traduire les relations de lin?earit?eentre les entit

?es d?un do c?ument?Elle est appropri?ee p our la repr?esentation des do cuments concus p our

etre lus de manieres?equentiellepar exempleun roman etdansune certaine mesureune liste bibliographiqueuncatalogue ou un dictionnaire?Structured

arbreUne structure d?arbre est utilis?ee p our traduire les relations de hi?erarchie ?inclusion? existantentreles entit?es d?un do cument c?est la structure de repr?esentation la plus usuelle?Cette structure estaussi utilis?ee p our repr?esenter les donn?ees dans certains ?editeurs syntaxiques ?Mentor Centaur?ainsi que dans certains ?editeurs de do cuments et de programmes ?Tioga de Xerox? ?Structurede foretLorsqu?il s?agitderepr?esenter undo cumentcontenantdesob jets ottantscaract?eris?es parunep ositionaprioriinconnuedansledo cumentunestructured?arbredevientinsusante?

Unestructuredefor

etsertamo d?eliserenplusducontenuprincipallesob jetsottants?tableauxgraphiques notes? qui p euvent

etre r?ef?erenc?es a plusieurs endroits du do cument?Dans la pratiqueles ob jets ottants d?un do cument ainsi que le contenu textuel principal sont repr?esent?es au moyende structures d?arbres ind?ep endantes mais connect?ees entre?elles?La structure de for

et est utilis?eedans le systemeGrif p our repr?esenter les do cuments?Structurede grapheUne structure de graphe p ermet de g?erer les renvois les r?ef?erences crois?ees et les do cuments nons?equentiels qui sont faits p our

etre lus par exemple a partir des index ou des tableaux?C?est lemo dele des hyp ertextes et hyp erm?edias ?

?Dans certains mo d?eles? lastructure physiqueest aussi d?esign?ee parstructuregraphique?

???STRUCTURES DE DOCUMENTS????SpecialisationL?immense vari?et?e des do cuments rend illusoire a notre avis toute tentativeded?ecrire au moyend?unseulmo delelastructuredetouslesdo cumentsp ossibles?Parcons?equentilconvientderegroup er dans desclassesde documents les do cuments ayantune m

eme structure?On d?esigneparstructuregeneriqueles regles structurelles communes aux do cuments appartenanta une m

emeclasseetparstructurespeci?quelastructured?uneinstancededo cumentconform?ementauneclasse?Structureg

?en?eriqueUnestructuregeneriqued?ecrit la structure r?egissant l?ensemble des do cuments appartenanta unem

eme classe?On parle de structure logique g?en?erique lorsque la description se rapp orte au contenudes do cuments et de structure physique g?en?erique lorsqu?elle d?ecrit la pr?esentation graphique desdo cuments?Parexemplelesnum?erosd?unem

emerevuesontr?egisparunem

emestructureg?en?erique ce qui confere a ces derniers un asp ect graphique similaire?La description ? est unexempledestructurephysiqueg?en?erique d?ecrivantl?ensembledesregles depr?esen

tation devantr?egir l?asp ect graphique des tableaux contenus dans les rapp orts publi?es dans un institut donn?e?La structure g?en?erique p eut servir avalider la structure d?un do cument particulier?

Un tableau est form?eId?une l?egende optionnelle? centr?ee et constitu?eed?une r?ef?erence suivie?d?une ligne de texte en italique fonte helv?etica?II d?une s?equence d?au moins deux colonnes s?epar?ees par des distances horizontales r?eguli?eres?Chaque colonne est form?ee de cellules s?epar?ees par des distances verticales r?eguli?eres?Une cellule estsoit une s?equence de colonnes cf? I Isoit un blo c?

Description ???Exemple de structure physique g?en?erique des tableauxStructuresp?eciqueUnestructurespeci?qued?ecrit la structure r?egissant une instance de do cumentappel?eedocumentspeci?que?On parle de structure logique sp?ecique lorsque la description se rapp orte au contenududo cumentetdestructurephysiquesp?ecique lorsqu?elle d?ecrit lapr?esentationgraphique dudo cument?Les illustrations de la gure ? sont deux exemples de tableaux sp?eciques dont l?asp ectgraphique quand bien m

eme di?erent est conforme a la structure g?en?erique de la description ??G?en?eralementlapr?esentationgraphiqued?undo cumentsp?eciqueestfond?eesursastructurephysique g?en

?erique??????GranulariteG?en?eralementondistinguedeuxniveauxdegranularit?ecompl?ementairesdanslastructuredesdo cuments il s?agit de la macrostructure et de la microstructure?Macrostructure

Lamacrostructure d?ecrit l?organisation hi?erarchique d?undo cumentaunniveau ?elev?e?Dans lecas d?une structure logique l?organisation d?ecrite par une macrostructure part de l?entit?e logiquerepr?esentantundo cumenttoutentierets?arr

eteauniveaudesparagraphesdesformulesdes

CHAPITRE ?STRUCTURES ET NORMES R

?EGISSANT LES DOCUMENTS

Tableau 1 : SimpleTableau 2 : Complexe

Figure ??Tableaux sp?eciques conformes a la description ??graphiquesdestableauxetdesphotographies?Cesentit?eesconstituentlesfeuillesd?unemac?rostructure logique qui se comp ose d?entit?es logiques interm?ediaires telles que ?les chapitres lesr?ef?erences bibliographiques les tables des matieres les sections les sous?sections etc?Dans le casd?une structure physique l?organisation d?ecrite par une macrostructure part de l?entit?ephysiquerepr?esentant l?ensemble des pages du do cumentet s?arr

ete auniveaudes blo csrepr?esentant desparagraphes des b outs de paragraphe des formules des graphiques des tableaux ou des photo?graphies?Ces blo cs constituent les feuilles d?une macrostructure physique qui se comp ose d?entit?esphysiques interm?ediaires telles que ?les pages les r?egions les blo cs etc?Microstructure

La microstructure d?ecrit l?organisation hi?erarchique interne des feuilles d?une macrostructure?Eneet les systemes de manipulation de do cuments p euvent s?int?eresser

a des structures plus nes?Par exemple dans le cas de la structure logique il s?agit des mots des caracteres des changementde fontes des emphases dans le cas de la structure physique il s?agit des lignes de texte des motsdes signesdes comp osantes connexes?Les feuilles d?une microstructure logique repr?esentent lescaracteres et celles d?une microstructure physique les comp osantes connexes?Pour certaines classes de do cuments la microstructure est plus complexe que la macrostructurealors que p our d?autres c?est plut

ot l?inverse?Par exemple p our un dictionnaire les microstruc?tures logiques d?ecrivant ses entr?ees sont plus complexes que la macrostructure logique qui elleest constitu?ee d?une liste d?entr?ees dans le dictionnaire?Invers?ement p our un journal la macro?structure physiqued?ecrivantunemosaque de blo csest pluscomplexe queses microstructuresphysiques qui elles sontform?es de blo cs textuels homogenes constitu?es d?une s?equence de ligneshomogenes et d?illustrations constitu?ees de symb oles graphiques????Normesetarchitecturesr?egissantlesdo cumentsLa multiplication des systemes de pro duction de do cuments ainsi que l??

evolution des imprimantesetautresp?eriph?eriquesd?achageontrendudicilel??echangededo cumentssousleurforme?electronique puisque chaque systeme avait son propre format de repr?esentation et chaque impri?mante son propre jeu de commandes?Pour ?eviter la prolif?eration des formats de repr?esentation desdo cuments des group es ind?ep endants ainsi que des organismes de normalisation telsque l?ISO

?ontd?eni desformats envuedefaciliterles ?echanges entressystemes etplateformes di?erents? ?International Standards Organization ??NORMES ET ARCHITECTURES R

?EGISSANT LES DOCUMENTS?Dans la section ?? nous pr?esentons une synthese des standards r?egissantle contenu ainsi quelapr?esentationdesdo cuments?Danslasection??nouspr?esentonsunsurvoldessystemesp ermettant une manipulation plus riche de do cuments encore plus complexes??????Normesregissantlesdo cumentsSGMLLanormeSGMLStandardGeneralizedMarkupLanguageestunestandardisationISOdeGMLd?eni chezIBM?Comme sonnom l?indiqueSGMLest unlangage debalisage quisert ad?ecrirela structure logique ?g?en?erique et sp?ecique? des do cuments ?

Il p ermetnon seulementded?ecrire du texte des formules et des tableaux mais aussi d?int?egrer des images et des graphiquesdans un do cument?En revanche elle ne p ermet pas de d?ecrire de maniere naturelle la structurephysique des do cuments?La normeSGMLd?enit avant tout une syntaxe a laquelle il est p ossibled?asso cier une s?emantique cette propri?et?en?est r?egie par aucune norme?Un do cumentSGMLestcomp os?e de trois parties p ouvantchacune faire l?ob jet d?un chierASCI Is?epar?e??D?eclarationSGML?d?enit l?ensemble des caracteres et balises autoris?es aussi bien dans lad?enition desDTDque dans la description des do cumentsSGML??DTD?Do cumentTyp e Denition? ?d?esigne la d?enition d?un typ e de do cuments donn?ee parune descriptionde la structure logique g?en?erique des do cumen

tsappartenantaunem

emeclasse ?cf?description ????Do cumentSGML?d?esigne un do cument particulier balis?e par les entit?es g?en?eriques d?eniesdans laDTDa laquelle se rapp ort le do cument et par les symb oles de marquage d?enis dansla d?eclarationSGMLasso ci?ee ?cf?description ???Il existe une d?eclarationSGMLpar d?efaut?Les entit?esSGMLpeuvent

etre enrichies d?attributsnotammentd?attributsdepr?esentation p ourleformatage comme illustrersurl?entit?eg?en?eriqueparagraphede la description ??

??EN T I T Y?docty pe?ar ticl e

???????ELEM EN Tar ticl e??titr e? auteur?? section????ELEM EN Ttitr eooPCDATA???ELEM EN Tauteur?oPCDATA???ELEM EN Tsection?otitr esection? par ag r aphe????ELEM EN Ttitr esectionooPCDATA???ELEM EN Tparagraphe?oPCDATA???AT T LI S TparagrapheIN DEN TNUMBER

cm?

Description ???Un exemple de DTD en SGML

??ENTITY article SYSTEM ?homeiiufgirafazoklyarticlesarticle?dtd????article??titre?Normes r?egissant les do cuments?auteur?Antoine AZOKLY?section??titresection?Normes r?egissantlecontenu?ntitresection?La norme ISO?? ??nsection?

Description ??Do cument conforme a la DTD ??

CHAPITRE ?STRUCTURES ET NORMES R

?EGISSANT LES DOCUMENTSDSSSL

La normeDSSSLDocument Style Semantics and Speci?cation LanguagecompletantSGML p ermetd?asso cier auxentit?es g?en?eriques constituantuneDTDdestraitementssp?eciques?Ellep ermetavant tout de transformer une structure en une autre?Cette caract?eristique fait deDSSSLun outilpeuvantservir a enrichiruneDTDde regles depr?esentation ande p ermettrele formatage desdo cuments?L?avenir de la normeDSSSLnous semble incertain puisqu?elle n?a toujours pas encoreconnu le succes qui lui a ?et?epr?edit?InterpressInterpressestunlangage dedescriptiondepaged?evelopp?epar

Xeroxquico desesinstructionsdans un format binaire ce quile rend moins convivial a l?utilisation?En cons?equence il n?a pasconnule m

eme succes quePostScriptavec lequel il pr?esente de fortes similitudes en raison de leurorigine commune ? PostScriptPostScript

?estun langage dedescription de pages ?PDL?n?edeInterpress?Il p ermetde d?ecrirela structure physique sp?ecique des pages de do cument?Il s?agit d?unformatASCI Id?eni p ourpiloterdesimprimanteslaserdomainedanslequelils?estimp os?ecommeunstandarddefait?Ilestconstitu?e de deuxparties ???unlangage de programmation de haut niveau fond?e sur leprincip e d?une machine apile ? et ?? un interpr?eteur de programme PostScript qui prenden c

harge la comp osition des do cuments?PostScript prop ose de nombreuses fonctions p our cr?eeret manipuler des ob jets typ ographiques ?caracteres graphiques etc??ainsi que p our charger desfontes?Ind?ep endantdetoutp?eriph?eriquePostScriptestsupp ort?epardetresnombreuxtyp esd?imprimantes et de photo comp oseuses ?Ses r?ecentes ?evolutions que sont la visualisation dedo cuments ?DisplayPostScript? la gestion des couleurs mais aussi la cr?eation du formatPDF sontles preuves de son succes d

ua sa puissance et a sa exibilit?e?PDF

Le formatPDFPortable Document Formatestunesp?ecication de Adob e qui p ermet de d?ecrirelespagesdedo cumentsdefaconaussipr?ecisequelep ermetPostScriptdontil

estd?ailleursune ?evolution ?PDFtientsonoriginalit?edufaitqu?ilsertnonseulementad?ecrire l?asp ectgraphiquedesdo cumentsmaisaussietsurtoutad?ecrirelesmisesajourlesannotationsleslienshyp ertextesl?imager?eduitedespagesetdessignets?Undo cumentPDFeststo ck?edansunchierASCI Ibitscequiluiassureunegrandep ortabilit?esurtouttyp edeplateformesind?ep endamment des p?eriph?eriques ??ecrans et imprimantes?etdelar?esolution de ces derni

eres?Un chierPDFcontient en plus du do cument une description des fontes utilis?ees ainsi a l?issuedesontransfertd?uneplateformeal?autrelesfontesmanquantesp euvent

etresubstitu?eesdemaniere apr?eserver la qualit?e graphique originelle du do cument?ODALa normeODAOpen Document Architecture est un langage orient?e ob jets qui p ermet de m?elangerdutexteavec desm?edias commelesonetlavid?eo?Ellep ermetded?ecrire ala foisletexteetsapr?esentationpuisqueODAdistinguelastructurelogiquede

lastructurephysiqued?undo c?ument ?EnODAlecontenudesdo cumentsestpartag?eentrelastructurelogiqueetlastructure physique comme l?illustre la gure ? sur un exemple?Le formatage s?appuie sur les stylesde miseenpageetlesstyles de pr?esentation asso ci?es auxentit?eslogiques?Les styles de miseen page indiquentcommentcr?eer des pages etcomment lessub diviserenr?egionspuislesr?egions enblo cs?Lesstylesdepr?esentationasso ci?es auxfeuilles

?PostScript est cr?e?e par la so ci?et?e Adob e en partant des travaux du Parc Xerox ??NORMES ET ARCHITECTURES R ?EGISSANT LES DOCUMENTS

Titre sectionParagrapheParagraphe

Titre section

Chapitre

Titre chapitre

ContenuContenuContenuContenuContenu

BlocBlocBlocBlocBloc

CadreCadreCadre

PagePage

Groupe de Pages

Frontière de page

Structure physiqueStructure logique

Chapitre

Document

Groupe de Pages

Volume

texte

Figure ??Description de do cuments en ODA?indiquentcommentformater desp ortionsdecontenucommedesformulesdestableauxoudesparagraphes?Lesstyles?etablissentunecorresp ondanceentrelesentit?eslogiquesetlesentit?esphysiques?ODAse prete mal p our la description des tableaux et des gures ces lacunes p ourront

etre combl?ees a l?avenir par des architectures sp?ecialis?ees??????Syst?emesdemanipulationdedo cumentsEnd?epitdesnombreusesavanc?ees technologiquesiln?estsouventpas ?evidentdetransf?erer undo cumen

t format?e sur un ordinateur de typ eAvers un autre ordinateur de typ eBet dont la plate?forme la conguration ainsi que les applications natives ne sont pas compatibles avec l?ordinateurde typ eA? Et p ourtantlebesoindepouvoir sur sa propre machine acher imprimer annoterou encore naviguer dans undo cument format?e sur unautre typ e de machines que la sienne estde nosjours plusqu?unen?ecessit?e?Dans cettesectionnous pr?esentons brievement deux de cessystemes servanta manipuler des do cuments constitu?es de divers m?ediasils?agit deAcrobatetdeOpenDoc?Acrobat

LesystemeAcrobatd?evelopp?eparAdob eSystemsInc?estfond?esur

leformatPDF ?D?une part il sert acr?eer a annoter et a transf?erer des do cuments et d?autre part il sert a gererlesdi?erentesversionsd?unm

emedo cument?Letransfertdedo cumentsp eutsefairesuivantdeuxmo des?Danslemo dequali?ededistributionledo cumenttransf?er?e p eut

etreparcourruach?e et imprim?e?Dans celui quali?ed?echangeenplusdesavantages du mo de distribution ledo cument transf?er?e p eut

etre annot?e?A cet eet le systeme Acrobat regroup e trois applicationscompl?ementaires ?

CHAPITRE ?STRUCTURES ET NORMES R

?EGISSANT LES DOCUMENTS?Acrobat exchangeouReadersert a visualiser a annoter a imprimer ou anaviguer dans undo cumentPDF??Acrobat Writersert aconvertir en do cumentsPDFdes do cumentsQuickDraw?format Macin?tosh?ou desdo cumentsGDI?format Windows??Cetteapplicationestutilis?eecommeunpiloted?impressionquiaulieud?envoyerledo cumental?imprimanteleredirigedansunchierPDF? Ainsitoute application capables d?imprimerdes do cuments p eutaussi facile?ment pro duire des do cumentsPDF??Acrobat Distil lersert aconvertir au formatPDF ind?

ep endament des plateformes les milliersde do cuments existantd?ejaau format PostScript?Op enDo c

OpenDocsysteme concurrentdeAcrobata?et?e initialement concu parApplep our la manipulationde do cuments comp os?es aussi bien de liens hyp ertextes que d?ob jets dynamiques par exemple ?desfeuilles de calcul des fen

etres de dialogue et des ob jets anim?es ? ?Fond?e sur le formatBento il est muni d?un interface homme?machine et d?une librairie orient?ee ob jets?Son originalit?eprincipale r?eside dans le fait qu?ilp ermetde combiner aumoyen d?unlangage de scriptage lesdi?erentes parties d?un do cument?Ceci p ermet de construire des applications interactives commeparexemplelesdidacticiels

??LeconceptfondamentaldansOp enDo cestceluidespartiesquicorresp ondentauconceptdeblo cs danslesdo cumentstextuelsclassiques?L?asp ectgraphiqued?une partie p eut etre d?une forme g?eom?etrique quelconque et son contenu de nature dynamique?Conclusion

En r?esum?e la structuration des do cuments a p ermis d?obtenir une repr?esentation de haut niveaufavorisant des traitements vari?es qui s??etendent bien au?dela de la bureautique?Une ?etude compa?rative des normesSGMLetODAest pr?esent?ee par Heather Brown dans ? ?Les normes publi?eesou en cours d??elab oration notammentPDFqui a notre avis p ossede a l?origine des caract?eristiquesint?eressantes ?ASCI I bits? devraientouvrirun champ d?applications plus large sur les do cumentsstructur?es ?Ces normes encourragent les pro ducteurs a adopter une m?etho dologie aussi bien dans la struc?turationquedansleformatage desdo cuments?Enretour

l??echange dedo cumentss?entrouvefacilit?e et la dicult?e de reconna

tre ces derniers en l?o ccurrence leurs structures physiques s?en?trouvediminu?ee?Eneetlareconnaissancedel?immensevari?et?ededo cumentsn?estp ossibleanotreavisquesil?ondisp oseapriorid?unmo delep ermettantdeguiderlesystemedere?connaissance?Dans notre systemece mo dele estd?eni par la structure physiqueg?en?erique desdo cuments auxquels nous nous sommes int?ess?es ?cf?chapitre ??

?SelonlePetitROBERT?logiciel ?afonctionp?edagogique

Chapitre?Unapp er?cudestechniquesdereconnaissance??Ob jectifLa reconnaissance de do cuments est une op?eration que l?on p eut consid?er?ee comme inverse de lapro duction a ce titre elle p eut

etre quali?ee dereverse engineering?cf?gure ???

Production

Edition

Formatage

Impression

Objets de cette thèse

Reconnaissance

structures physiquesReconnaissance structures logiques OCR

OFRSegmentation

Etiquetage

Postraitement & Applications

Structure logique

document chap-i titre par

Structure physique

document page-i fig bloc•• scanner

Reconnaissance

Prétraitement

Image Image

Figure ??De la pro duction a la reconnaissance des do cuments imprim?es?Pro ductionOp?eration qui consiste a transcrire le message ou l?id?ee d?un auteur sur un supp ortphysique en l?o ccurrence papier?Cette op?eration comprend ??l?editionqui concerne avant tout la structure logique?leformatagequi concerne essentiellement la structure physique?l?impressionqui consiste a transcrire sur papier le r?esultat du formatage?

CHAPITRE ?UN APPERC U DES TECHNIQUES DE RECONNAISSANCEReconnaissanceOp?eration quiconsisteareconstruire uneversion ?electroniqueapartird?undo cument imprim?e?Cette reconnaissance implique plusieurs traitements ??ladigitalisationdes pages au moyen d?un scanner?des op?erations depretraitementsur les images r?esultant de la digitalisation?lareconnaissance de structures physiquesqui comprend la segmentation et l?etiquetage?lareconnaissance de structures logiquesqui comprend l?OCR

?et l?OFR

??des op?erations depostraitementcomme par exemple la conversion du r?esultat de reconnais?sance dans un autre format?La reconnaissance de l?immense vari?et?e de do cuments n?est p ossible que si l?on disp ose a priorid?unmo dele p ermettant de guider les systemes de reconnaissance?Enr?ealit?

e iln?existe pas desysteme universel capable de reconna

tre tout typ e de do cuments compte tenue de la dicult?ead?ecrire dans un seul mo dele l?ensemble de tous les di?erents typ es de do cuments existants?Deslors la question qui se p ose est ?commentmo d?eliserlesdo cumentsdesorteaprendreencomptedansunmo deleuniquelesconnaissancesaprioriaussibienlogiques quephysiquesdesdo cumentsappartenantaune m

eme classe?Dans ce chapitre nous d?ecrivons les principaux traitements qui interviennent dans la reconnais?sance des do cuments?Notre ob jectif principal est de mettre en ?evidence d?une part l?imp ortancedelareconnaissance desstructuresphysiquesetd?autrepartlalimitedestechniquesusuellespr?esent?ees dans la litt?

erature?Dans la section ? nous d?ecrivons brievement les techniques usuellesde pr?etraitement?Dans la section ? consacr?ee a la reconnaissance de structures physiques nouspr?esentons unesynthese destechniques courantes desegmentationainsi quecelles d??etiquetage?Dans la section ? nous d?ecrivons quelques appro ches de reconnaissance de structures logiques?Les limites des techniques de segmentation et d??etiquetage que nous pr?esentons a la section ??ont?et?eal?origine denos proprestravaux?Lelecteurint?eress?e par lessystemesd?OCRp eutserapp orterauxtravauxdeS?Kahan etdeAnigb ogu etceluiint?eress?eparl?

OFRauxtravaux deA? Zramdini ???Pr?etraitementLa reconnaissance d?un do cument imprim?e commence par la digitalisation de ses pages r?ealis?ee aumoyen d?un scanner?G?en?eralement les images r?esultants de la digitalisation n?ecessitent avantlaphase proprementditede reconnaissance quelques op?erations quali?ees depr?etraitement et quicomprennent??l??elimination des bruits?l?estimation de l?inclinaison?et le redressement des images?Danscettesectionnousnepr?esentonsquelesop?erationsdepr?etraitementslesplususuellesils?agitdel?estimationdel?inclinaisonetduredressementdesimages?Nousnetraitonsdoncpas

l??eliminationdesbruitsquidanslapratiquep eut

etrer?ealis?eeautraversdesparametresdulogiciel pilotantla saisie optique?Le lecteurint?eress?eparcestechniquespeutse r?ef?erer auxtravaux pr?esent?es dans ? ?

?Optical Character Recognition?

Optical Font Recognition

??PR

?ETRAITEMENT?????Estimationdel?inclinaisonL?inclinaisondesimagesestprovoqu?eeessentiellementsoitparunmauvaisp ositionnementdespages lors de la saisie optique soit par une mise en page fantaisiste et irr?eguliere de l?auteur?L?es?timation de cet inclinaison est n?ecessaire p our certaines techniques de segmentation qui n?obtien?nent de b ons r?esultats que ??si les images sont parfaitement redress?ees?ou connaissant l?angle d?inclinaison?Danslapratiqueuneinclinaisonde

odansuneimaged?unelargeurde?pixel sinduitund?enivel?ede pixel s susant p our

etre une source de p erturbation ?cf?tableau ???Dans cettesection nous pr?esentons une m?etho de dite des moindres carr?es p our l?estimation de l?inclinaisondanslesdo cuments?Onreleve?

egalementdanslalitt?erature d?autrestechniquesfond?ees surlatransform?ee de Hough sur la pro jection des comp osantes connexes ? etc?M?etho de des moindres carr?esCette technique que nous devons aTrincklin consiste a estimer l?angle a partir d?un vecteur depointsV?i?!?xi

?yi

?form?es des premiers pixels de couleur noire rencontr?es en balayant ligne parligne l?image de la gauche vers la droite?Ce vecteurVde taillenrepr?esente un nuage de p ointsplus ou moins ?eloign?es de la droited?

passant par l?origine ??? et inclin?ee d?angle?recherch?e?Soitrle co ecient de corr?elation lin?eaire des p ointsV?i?suivan

tlam?etho de des moindres carr?es??Sirest pro che de alors les p oints repr?esent?es parV?i? sontalign?es sur la droited?

ainsiconnaissantl??equation de la droited?

onpeutd?eduire l?angle d?inclinaison recherch?e??Autrements?iln?existeaucunecorr?elation entrelespointsV?i?onreprendlecalculpardichotomie sur chaque moiti?edu vecteurVet ainsi de suite jusqu?a ce qu?on obtienne unecorr?elation sur une p ortion deVk

?V ou que la cardinalit?edeVk ne soit plus repr?esentative?Lorsqu?unecorr?elationapu etretrouv?eesurunsegmen tVk decardinalit?enk alorsl?angle?kcorresp ondantestpond?er?eavecnk ?Alasortiedeladichotomieondisp osed?unesuiteS!f?k ?nk gd?anglesp ond?er?esordonn?eeparrapp orta?k

?LasuiteSestensuitepartitionn?eeenregroupant les angles cons?ecutifs de p oids non?nuls comme l?indique la gure ??

0 l1n 1n k lkTfréquenceTminTmaxT TkS k Figure ??Partition des angles dans la m?etho de des moindres carr?es?SoitSi !?li ?ni ??i ??unepartition deSdans laquelleli d?esigne lalargeur deSi etni ??i ?lep oids ?d?angle?i ? le plusfort dansSi ?L?angle d?inclinaison b?recherch?e est estim?epar?k de lapartitionSk !?lk ?nk ??k ?? qui maximise la fonction ?E?Si?!li ?ni ??i ??Pouraccro trel?ecacit?elam?etho degagneraita etre ?evalu?eesurl?ensembledescomp osantesconnexes au lieu des pixels?

CHAPITRE ?UN APPERC U DES TECHNIQUES DE RECONNAISSANCE????RedressementL?ob jectif vis?e par le redressement est d?obtenir une image avec un minimum de distorsion et debruits?Les techniquesclassiques de redressement bas?ees sur la rotation euclidiennepr?esententdeux inconv?enients ma jeurs d

us au caractere discret des images ??? la non?bijectivit?e et surtoutune trop forte d?egradation dans les images redress?ees? Ces limites ont?et?ea l?origine des nombreuxtravaux de recherche en cours dans le domaine de la g?eom?etrie discrete ??larotationdiscr?eteparcercle quiconsiste??acalculerpourchaquepixellacir?conf?erenceducerclediscretd??epaisseurauquelilappartientpuis??

ad?ecalertouslespixels de ce cercle d?un nombre de pixels induit par l?angle de rotation??larotationdiscr?etepardroite quiconsisteafairecorresp ondrelespixelsd?unr?eseauhorizontal?feuilletagehorizontaldedroitesd??epaisseur?auxpixelsdur?eseauobliqueobtenua l?issue de la rotation des droites horizontales?Le lecteur d?esireux d?en savoir plus sur les techniques de rotation discrete p eut compl?eter sa lectureavec ??ReconnaissancedestructuresphysiquesLa segmentation a longtemps ?et?e consid?er?ee dans les systemes de reconnaissance de do cumentscomme une primitives de traitement parmi tant d?autres?Les r?ecentes applications ?classicationarchivage compression etc??dans le domaine do cumentaire font de la segmen

tation un ob jectifderechercheensoit?Ainsidesimplesprimitivesdesegmentationonparleaujourd?huidelareconnaissance de structures physiques ? au m

eme titre que la reconnaissance de structureslogiques?Cettereconnaissance consisted?unepartad?eterminerunepartitionhi?erarchique del?imagedesdo cumentstrait?esetd?autrepartaattribuerune?etiquettelogiqueachacundes?el?ements de la partition que l?on d?esigne par entit?ephysique?La reconnaissance est aussi carac?t?eris?ee par le fait qu?elle n?implique aucun systeme reconnaissance optique de caracteres?Dans lasection ?? nous pr?esentons une synthese des techniques courantes de segmentation et dans lasection ?? celle des techniques courantes d??etiquetage????Segmen

tationLa segmentation a p our but de lo caliser a partir de l?image digitalis?ee d?une page les blo cs quicomp osentcettederniere?Plusconcretementleproblemedelasegmentationpeutseformulercomme suit ?Etant donn?ee l?image digitalis?ee d?une page d?eterminer une partition g?eom?etrique decette derniere de sorte a isoler tous les blo cs qui la comp osent?Danscettesectionnouspr?esentons dansl?ordrelesstrat?egies usuellesd?analyseunsurvol destechniques de base puis celui des techniques avanc?ees en matiere de la segmentation?Strat?egies usuelles d

analyseLapartitiond?uneimagepeutsefairesuivantdeuxstrat?egies d?analysedi?erentesasavoirlastrat

?egie descendantepro c?edantpard?ecoup ehi?erarchique oulastrat?egieascendantepro c?edantparagglom?erationd?entit?esvoisines?Cesdeuxstrat?egiessontg?en?eralementcombin?eeslorsquel?une ou l?autre n?est pas satisfaisante?

??RECONNAISSANCE DE STRUCTURES PHYSIQUESStrat?egie descendanteElle caract?erise les techniques de segmentation pro cedant par d?ecoup er?ecursive des images trait?ees?La r?ecursion se p oursuit jusqu?a ce que la comp osante physique laplus ?el?ementaire ?en g?en?eral une comp osante connexe? soit atteinte?Dans ce genre de techniquesla d?ecoup e d?une image est fond?eeeng?en?eral sur une analyse des caract?eristiques globales?Quandbien m

eme de telles techniques sont ables leur co

ut souvent excessif p eut devenir d?emesur?e p ourdes m?etho des admettant le retour en arriere ?backtracking??Strat?egie ascendanteElle caract?erise les techniques de segmentation pro cedant par fusion hi?e?rarchique des entit?es physiques?La fusion se p oursuit jusqu?a ce que la structure compl

ete ?racinede la hi?erarchie? de l?image trait?ee soit obtenue?Dans ce genre de techniques la fusion est fond?eeen g?en?eral sur une analyse des caract?eristiques lo cales?Si de telles techniques sont plus ecacesquecelless?inscrivantdansunestrat?egiedescendanteellessonttoutefoismoinsablesquecesdernieres a cause de la propagation des erreurs ?lo cales? de fusion tout le long de la segmentation?Techniques de baseRLSARunLenghSmoothingAlgorithmestunetechniquedueaWong etfond?eesurundouble lissage unidirectionnel de l?image a segmenter?Elle consiste a noircir suivant une directiondonn?ee les segments de pixels blancs de longueur inf?erieure a un seuilsdonn?e ?cf?gure ???Lasegmentation est alors obtenue en appliquant l?op?erateur logique "and# ?

??sur les deux imagesr?esultantresp ectivementd?unlissagehorizontaletd?unlissagevertical?Lanaturedesblo csisol?es est intimementli?ee au choix des seuils comme le montre la gure ??Les seuils trop faiblesprovo quent une sur?segmentation alors que les seuils trop ?elev?es provo quent une sous?segmentation?Les principales limites de cette technique sont??le choix arbitraire des seuils de lissage?sa sensibilit?e aux inclinaisons?son inadaptation a segmenter des blo cs graphiques formules et tableaux?Plusieurs variantes de la techniqueRLSAont?et?epr?esent?ees dans la litt?erature?Il s?agit parexempledecelleprop os?eeparTakashidans etquiconsistear?eduirel?imaged?unfacteur

donn?ececidanslebutdefusionnerdesentit?espro cheslesunesdesautres?Nousavons nous?m

emes prop os?e une variante bi?directionnelle ?equivalente alapr?ec?edente et qui consiste a balayerl?image par une fen

etre au lieu de la balayer ligne par ligne ? ?D?ecoup er?ecursiveUngrand nombre detechniques desegmentation pro cedentpar d?ecoup er?ecursive alternant l?analyse des prols horizontaux avec celle des prols verticaux ?Unprol de pro jection est une accumulation des pixels noirs d?une image suivant un axe donn?e?Lagure ? illustre le prol de pro jection vertical qui sert notamment a la segmentation en lignesainsiqu?al?estimationdeslignesdebase?

Lesprincipaleslimitesp ourcegenresdetechniquessont??leur sensibilit?e aux inclinaisons?leur inadaptation a segmenter des blo cs mosaques?Cettetechniqueded?ecoup er?ecursivedueaG?Nagyestaussiutilis?eep ourmo d?eliserlastructure des do cuments sous la forme d?un arbreXYdont la racine repr?esente la totalit?ede l?image a segmenter?Techniques avanc?eesNous avons regroup?e en trois grandes cat?egories les techniques de segmentation r?ecemmentpr?esen?t?eesdanslalitt?erature ??a?lestechniquesfond?eessuruneanalyse

spatiale?b?lestechniquesfond?ees sur une analyse structurelle et ?c? les techniques fond?ees sur une analyse sp ectrale?

CHAPITRE ?UN APPERC U DES TECHNIQUES DE RECONNAISSANCE

Seuil pas assez grand pour fusionner cette ligne

Image originaleLissage horizontal avecs!Figure ??Segmentation parRLSA?AnalysedesespacesCettecat?egorieregroup el?ensembledestechniquesdesegmentationfond?eessuruneanalysedesespacesino ccup?es?Laplusc?elebredueaPavlidisetconnuesousle nom dewhite streams consiste a fusionner les segments d?espace blanc adjacents dans le but deconstruire des plages blanches qui servironta estimer l?inclinaison des images ainsi qu?a segmenterces dernieres?D?autres techniques inspir?ees des travaux dePavlidisont?et?e?egalementpr?esent?eesdans la litt?erature??Akindele? prop oseunetechnique

danslaquellelesplagesblanchessontsupp os?ees rect?angulaires puisque les images trait?ees ont?et?epr?ealablement redress?ees?La particularit?edeson appro che r?eside dans le fait que les blo cs isol?es ont?et?e approxim?es par des p olygones dec

ot?es paralleles aux b ords des images trait?ees??Baird prop oseuneunetechniquedesegmentationquiconsistead?eterminerdansunpremiertempslesblo csensebasantsuruneanalysedesespacespuisdansunsecondtemps la structure des blo cs textuels au moyen d?une technique de d?ecoup e r?ecursive?Laparticularit?e de son appro che r?eside dans le fait qu?elle est non seulementind

?ep endante del?inclinaison mais aussi capable de segmenter des blo cs mosaques?D?autres appro ches bas?ees sur la recherche de s?eparateurs ?espaces ou lets? sontd?ecrites dans lalitt?erature ?AnalysestructurelleCettecat?egorieregroup el?ensembledestechniquesdesegmentationguid?ees par des regles structurelles d?ecrivantle but a atteindre?Nous avons choisi d?en pr?esenterune qui nous semble int?eressante et assez repr?esentative??Krishnamo orthy? pr?esente une technique qui consiste a sub diviser les images suivant unedescription des prols de pro jection g?en?erique asso ci?es achaque typ e d?entit?es p ouvant com?p oser les images trait?ees?Les prols sontd?ecrits au moy

en d?une suite alternant les plagesnoires et les plages blanches chaque plage ?etant repr?esent?ee par sa longueur?

??RECONNAISSANCE DE STRUCTURES PHYSIQUES?

espaceCettecat?egorieregroup el?ensembledestechniquesdesegmentationfond?eessurunetransformationglobaledesimagesenvueded?eterminersoitlescriteres de d?ecoup e soit les criteres de fusion??Docstrum? due aO?Gorman est une technique de regroup ementhi?erarchique fond?ee suruneanalysedugraphedesk?pluspro chesentit?esvoisinesl?auteurd?

enitparspectredudo cumentle grapheassoci?ea ce dernier?Les nuds du graphe sont initialement constitu?esdecomp osantesconnexes?Docstrumappropri?ee p ourlasegmentationdesblo cstextuelspr?esente l?avantage d?

etre ind?ep endante de toute inclinaison ?globale ou lo cale??D?autres m?etho des de segmentation bas?ees sur l?analyse des transform?ees de Fourier sontd?ecritesdans la litt?erature ??? ????EtiquetageLa grande ma jorit?e des m?etho des de segmentation ne prennent pas en compte le probleme d??eti?quetagedesentit?esphysiques?Cesdernieresann?eesl??emergencedenouvellesapplicationsnen?ecessitan

tpasunsysteme dereconnaissance optiquedescaracteres apermisd??etendre ler

olede la segmentation qui d?esormais en plus de la partition des images identie la nature des blo csisol?es?Les p ermieres m?etho des d??etiquetage servent en g?en?eral a distinguer un blo c textuel des autresblo cs que l?on considere le plus souvent comme graphiques?Plus r?ecemment des m?etho des plusnes ont?et?ed?evelopp?ees p our l??etiquetage des blo cs de typ e particulier asavoir ?textes expres?sions math?ematiques tableaux graphiques et photographies?Dans cette section nous pr?esentonsp our chacun de ces typ es une synthese des m?etho des d??etiquetage pr?esent?ees dans la litt?erature?

CHAPITRE ?UN APPERC U DES TECHNIQUES DE RECONNAISSANCETexteLes caract?eristiques usuelles p our l??etiquetage des blo cs textuels sont la taille des entit?es physiques etlesprolsdepro jection ?Souventleslignesdetextepeuvent

etre regroup?ees enblo cs textuels en fonction de la r?egularit?e des espaces dans un prol de pro jection vertical?L??etiquetage des mots et des caracteres n?est souvent pas trait?e faute de p ouvoir estimer p ourlespremiersl?intervalledevariationdesespacesinter?motsetpourlessecondsl?intervalledevariation desespacesentre unsigne diacritiqueetsoncorps?Danscettethesenous app ortonsunesolution a ces limitesgr

ace auneestimationautomatique desseuilsm

?etriques r?egissant lesblo cs textuels ?cf?chapitre ??Expressions math?ematiquesLa segmentation des do cuments scientiques n?ecessite en plus de l?analyse des blo cs textuels celledes blo cs repr?esentant des expressions math?ematiques des tableaux ou des graphiques?Contraire?ment aux do cuments purement textuels les regles de formatage d?une expression math?ematiquesontcomplexesettres vari?ees?Lessystemes courantsdereconnaissance dedocumentsn?ab ou?tissentque silesexpressions math?ematiques sontau pr?ealable ltr?ees manuellementpour

etre?etiquet?ees par une m?etho de sp?ecique? X + 1 2 y(x) = X + 1 2 X + 1 2quotesdbs_dbs6.pdfusesText_12