PDFprof.com Search Engine



Chapitre 1 Modélisation statistique

PDF
Images
List Docs
  • Quels sont les 4 principaux types de modèles statistiques ?

    Techniques de modélisation statistique
    Certains exemples de modèles statistiques populaires incluent la régression logistique, les séries chronologiques, le clustering et les arbres de décision .

  • Qu’est-ce que la modélisation des données statistiques ?

    La modélisation statistique consiste à utiliser des modèles mathématiques et des hypothèses statistiques pour générer des échantillons de données et faire des prédictions sur le monde réel .
    Un modèle statistique est un ensemble de distributions de probabilité sur un ensemble de tous les résultats possibles d'une expérience.

  • Quels sont les différents modèles statistiques ?

    Les types principaux : modèle linéaire, modèle linéaire généralisé, modèle multi-niveau (en), modèle d'équation structurelle, modèle mixte.

  • Les variables explicatives, appelées également variables indépendantes, sont celles que nous utilisons dans le but d'expliquer, de décrire ou de prédire la ou les variable(s) dépendante(s).

Chapitre 1 Modélisation statistique
Cours de Modélisation Statistique
Introduction à la modélisation statistique bayésienne
Polycopié biochimie alimentaire L3 finalpdf
Programme National Nutrition Santé 2019-2023
CEG4566/CSI4541 – Conception de systèmes temps réel SIGE
Techniques marketing et statistiques appliquées à l'e-business
INSTALLATION D'UN SYSTEME DE CLIMATISATION A EAU
Étude expérimentale modélisation et optimisation d'un procédé de
Modélisation et analyse d'une machine à absorption/compression
Conception d'un contrôleur de température d'unpdf
Next PDF List

Chapitre 1 Modélisation statistique
Chapitre1Modélisationstatistique1.

1) UnexempleUnepièceauneprobabilitép0?]0,1[detombersur"pile".Surles1000lan-cersréalisésindépendammentlesunsdesautres,oncompte520"pile"et480"face".Onestdonctentédeconclurequep0≈0.52.Cependant,delamêmema-nièrequ'ilestsansintérêtdedonnerunevaleurapprochéed'uneintégralesanspréciserl'erreurd'approximation,cerésultatn'aquepeudevaleur,carilnenousrenseignepassurl'erreurcommise.Laconstructiond'unmodèlepermetdecomblercettelacune.Onnotex1,···,xnlesrésultatsdesn=1000lancersdepièce,aveclaconventionsuivante:xi=1silei-èmelanceradonné"pile",et0danslecascontraire.Leprincipedebasedel'estimationstatistiqueconsisteàconsidérerque(x1,···,xn)estuneréalisationdelaloiB(p0)?n,sipourchaquep?[0,1],B(p)désignelaloideBernouillideparamètrep:B(p)=pδ1+(1-p)δ0.Enl'absenced'informationssurlavaleurdep0,onnepeutenfaitquesupposerque(x1,···,xn)estuneréalisationdel'unedeslois{B(p)?n,p?]0,1[}.Decetensembledeprobabilités,appelémodèlestatistique,onchercheàdé-duirelavaleurdepquis'ajustelemieuxauxobservationsx1,···,xn.Uneréponseraisonnableestbaséesurl'intuitionsuivante:comptetenudesinformationsdontondispose,lameilleureapproximationdep0quel'onpuissedonnerestunevaleur34CHAPITRE1.MODÉLISATIONSTATISTIQUEquimaximisel'applicationp?→B(p)?n({x1,···,xn})=n∏i=1B(p)({xi})=p∑ni=1xi(1-p)n-∑ni=1xi.C'estleprincipedeconstructiond'unevaleurapprochée-onparlerad'estimateur-dep0parmaximisationdelavraisemblance.Selonceprincipe,lavaleurquis'ajustelemieuxauxobservationsestlamoyenneempiriquedesobservations:¯xn=1nn∑i=1xi.Onretrouveainsilavaleur¯xn=0.52dudébut.L'introductiond'unmodèlenouspermetenplusdedonneruneerreurdansl'approximation.Soitp?]0,1[,etX1,···,Xndesv.a.i.i.d.surl'espaceprobabilisé(Ω,F,P)deloicommuneB(p).Onpeutcalculerlerisquequadratique,c'est-à-direlecarrédeladistanceL2entrelaciblepetl'estimateur¯Xn=(1/n)∑ni=1Xiobtenuparleprincipedemaximisationdelavraisemblance:E(¯Xn-p)2=1nEX1(1-EX1)=1np(1-p).Commep(1-p)≤1/4,l'erreurquadratiquemoyennecommiseestdoncmajo-réepar1/(2⎷n)≈0.016.Cependant,silerésultatdonnedesinformationssurlaqualitédel'approximation,cen'estqu'uneévaluationenmoyenne,quinedépenddoncpasdesobservations.D'autresprincipespeuventêtreenvisagéspourpréciserlaqualitédel'approxi-mation.Supposonsquel'onveuilleconstruireunintervalledanslequelp0doitsetrouver,avecuneprobabilitéde0.95parexemple.Pourchaquep?]0,1[,oncherchedansunpremiertempsunintervalledeconfianceparexcèsI(X1,···,Xn)construitaveclasuitedev.a.X1,···,XntelqueP(p?I(X1,···,Xn))≥0.95.Onpourradoncconclure,aveclesobservationsx1,···,xn,quep0?I(x1,···,xn),avecuneprobabilitéde95%aumoins.D'aprèsl'inégalitédeBienaymé-Tchebytchev,onapourtoutε>0:P(|¯Xn-p|≥ε)≤var(¯Xn)ε2=var(X1)nε2=p(1-p)nε2≤14nε2.1.2.PRINCIPEFONDAMENTALDELASTATISTIQUE5Decefait,P(|¯Xn-p|≥ε)≤0.05aumoinssi1/(4nε2)≤0.05soit,touscalculsfaits,siε≥0.07.Parsuite,P(p?[¯Xn-0.07,¯Xn+0.07])≥0.95.Enutilisantlesobservationsx1,···,xnona¯xn=0.52,etdoncp0?[0.45,0.59]avecuneprobabilité0.95aumoins.Lemoinsquel'ondireiciestquecetteinfor-mationestpeusatisfaisante,euégardaugrandnombred'observations!Commentaméliorercesrésultats?Silaquestionposéeest"lapièceest-elleéquilibrée?",l'intervalleci-dessusnepermetpasdedonneruneréponse;dèslors,quellestratégiededécisionenvisager?L'objetdececoursestdedonnerquelquesélémentsderéponseàcesquestions.Dansunpremiertemps,ilconvientdefixerlesobjectifsdel'inférencestatistique,ainsiquelecontextemathématique.1.

2) PrincipefondamentaldelastatistiqueLephénomènealéatoirefournitnobservationsx1,···,xndel'espacetopologiqueH.Celles-cisontsupposéesêtrelesréalisationsd'uneloiQ0surl'espacepro-babilisable(H,B(H)).Leprincipedel'inférencestatistiqueestd'utilisercesnobservationspourendéduireQ0.Cetteapprocheest-elleraisonnable?End'autretermes,est-ilpossibledereconstruireunapproximationdeQ0àpartirdesobser-vationsx1,···,xn?Nousallonsvoirquelaréponseestaffirmative,aumoinsdanslecasoùlephénomènealéatoireglobalconsisteennphénomènesindépendantsetrégisparlamêmeloi.Aupréalable,rappelonsquelasuitedeprobabilités(νn)nsurRkconvergeétroitementverslaprobabilitéνsi,pourchaquefonctionf:Rk→Rcontinuebornée,ona:?Rkfdνn→?Rkfdν.LecritèredeconvergencedeLévynousaffirmeque(νn)nconvergeétroitementversνsilasuite(ˆνn)nconvergesimplementversˆν,oùˆνdésignelatransforméedeFourierdeν,i.e.lafonctionˆν:t?→?Rkexp(itTx)ν(dx),etidempourˆνn.

6) CHAPITRE1.MODÉLISATIONSTATISTIQUEDanslasuite,δxdésignelamesuredeDiracenx?Rk.Théorème[VARADARAJAN]SoitZ1,Z2,···desv.a.i.i.d.sur(Ω,F,P)àvaleursdansRk,deloicommuneν.Onnoteνnlamesureempiriquedesn1èresv.a.,i.e.νn=1nn∑i=1δZi.Alors,P-p.s.,lasuitedemesures(νn)nconvergeétroitementversν.PreuvePoursimplifierlapreuve,onsupposequeZ1estintégrable.D'aprèslecritéredeLévy,ilsuffitdemontrerqueP??t?Rk:ˆνn(t)-&ˆν(t)?=1,siˆνnetˆνdésignentlestransforméesdeFourierdeνnetν.Or,laloifortedesgrandsnombresnousmontrequepourtoutt?Rk,l'événementΩ(t)={ˆνn(t)-&ˆν(t)}estdeprobabilité1.SoitT?Rkunensembledénombrabledense,etΩ0=?t?TΩ(t)?$%1nn∑j=1?Zj?$&E?Z1??.CommeZ1estintégrableetTestdénombrable,onaP(Ω0)=1d'aprèslaloifortedesgrandsnombresetcarP(Ω(t))=1pourtoutt.Fixonst?Rketω?Ω0.Onchoisitunesuite(tp)pdeTtellequetp→t,etonnotepourtouts?Rk,ˆν%n(s)laréalisationenωdeˆνn(s),i.e.ˆν%n(s)=1nn∑j=1exp(isTZj(ω)).Soitpfixé.Ona:|ˆν%n(t)-ˆν(t)|≤|ˆν%n(t)-ˆν%n(tp)|+|ˆν%n(tp)-ˆν(tp)|+|ˆν(tp)-ˆν(t)|≤,t-tp??1nn∑j=1?Zj(ω)?+E?Z1??+|ˆν%n(tp)-ˆν(tp)|1.3.MODÈLESTATISTIQUE7Parsuite,pourtoutp:limsupn|ˆν%n(t)-ˆν(t)|≤2?t-tp?E?Z1?.Enfaisantenfintendrepversl'infini,onpeutendéduirequepourtoutω?Ω0ettoutt?Rk,ˆν%n(t)→ˆν(t).CommeP(Ω0)=1,lerésultatestdémontré.?Reprenonslecontexteoùlesobservationsx1,···,xn?HsontissuesdenphénomènesaléatoiresindépendantsetrégisparlamêmeloiQ0surH.Danscecadre,Q0s'appellemesurethéorique.LethéorèmedeVaradarajanmontrequesi(X1,···,Xn)suitlaloiQ?n0alorslamesureempirique1nn∑i=1δXiestprochedelamesureQ0,lorsquenestassezgrand.Autrementdit,enmulti-pliantlesexpériences,lamesurediscrète1nn∑i=1δxiestprochedelamesureQ0.CerésultatdonneunappuithéoriqueàladémarchestatistiqueconsistantàtenterdereconstruirelamesurethéoriqueQ0àl'aidedesobservationsx1,···,xn.Toutedémarcheenstatistiqueinférentielleasymptotiqueestbaséesurcethéorème,quiméritedoncsontitrede"Théorèmefondamentaldelastatistique".Cependant,cethéorèmenenousdonnepasd'informationsurlaproximitéentrelamesureempiriqueetlamesurethéorique.Enréalité,untelobjectifesthorsdeportéeenrèglegénérale,sansplusd'informationsurlaformedelaloithéorique.Decefait,ilestdoncnécessairederestreindrel'ensembledesloisdeprobabilitéscenséesreprésenterl'expériencealéatoire;cetteidéevaêtreformali-séedanslasectionsuivante.1.

3) ModèlestatistiqueFormalisonsleconceptdemodèlestatistiquevudanslasection1.1.Danscecadre,l'espacedesobservationsétait{0,1}n.

8) CHAPITRE1.MODÉLISATIONSTATISTIQUEDéfinitionsUnmodèlestatistiqueestuncouple(Hn,P),oùHestl'espace-supposétopologique-dechaqueobservation,etPestunefamilledeloisdepro-babilitéssurHnmunidesatribuborélienne.Lemodèlestatistique(Hn,P)estparamétréparΘsiP={Pθ}θ?ΘL'expériencealéatoiresous-jacentefournitnobservations(x1,···,xn)?Hndumêmephénomènealéatoire,quiestrégitparlaloiinconnueP0.Leprincipedebasedelastatistiqueestdeconsidérerque(x1,···,xn)estrégitparl'unedesloisd'unmodèleP,avecP0?P.Cetteétapedemodélisationétantachevée,ils'agiradechercherquelleloidecemodèles'ajustelemieuxauxobservations.Parexemple,lorsquelesexpériencesontétémenéesindépendammentlesunesdesautres,l'observation(x1,···,xn)estrégieparlaloiP0=Q?n0,etlemodèlesta-tistiqueestunensembledeprobabilitéssurHncontenantQ?n0.Anoter,donc:àl'inverseduprobabiliste,lestatisticientravailleplutôtsurl'espacedesobservations,quiconstitueuncadred'étudeplusnaturel.Parailleurs,lestatisticiennesupposepasquelaloidesobservationsestconnue,àl'inverseduprobabiliste.ExempleEnutilisantdesobservationsindépendantesx1,···,xndeladuréedeviedenampoulesdumêmetype,onveutconnaîtrelaloisuivieparladuréedeviedecetyped'ampoule.La1èreétapeconsisteàdéfinirlemodèlestatistiqueassocié,dontl'espacedesobservationsestRn+.Dupointdevuedelamodélisation,ilestraisonnabled'affirmerqu'unev.a.Xsur(Ω,F,P)quireprésenteladuréedeviedel'ampouleestsansmémoire,i.e.L(X-t|X≥t)=L(X),?t≥0.Cettepropriétésignifiequel'ampoule"nesesouvientpasd'avoirvieilli".Parailleurs,onpeutaussisupposerquelaloideXestàdensitéparrapportàlame-suredeLebesgue.Onsaitalorsqu'ilexisteλ>0telqueX≂E(λ).Commelesobservationsdesduréesdeviesontindépendantes,(x1,···,xn)estuneréalisationd'uneloiE(λ0)?n,pouruncertainλ0>0qu'ils'agiradetrouver.Lemodèlesta-tistiqueassociéàcetteexpériencealéatoireestdonc(Rn+,{E(λ)?n}λ>0).Nousverronsdanslasuitecommenttrouverunevaleurdeλquis'ajusteauxobserva-tions.1.4.DOMINATIONDANSUNMODÈLESTATISTIQUE9Dansl'exempledelasection1.1,commeleslancersdepiècesontindépen-dants,laloidontsontissueslesrésultatsdel'expérienceestclairementl'unedesloisdumodèleP={B(p)?n,p?]0,1[}.Remarquonsaussiquel'applicationp?→B(p)?nestinjective:cettepropriété,appeléeidentifiabilité,ôtetoutambi-guitédanslemodèle,enpermettantd'associeràdesobservationsune,etuneseuleloidumodèle.DéfinitionsSoitP={Pθ}θ?Θunmodèlestatistique.1.Ilestditidentifiablesil'applicationθ?→PθdéfiniesurΘestinjective.2.IlestditparamétriquesiΘestinclusdansunespacevectorieldedimen-sionfinie.Sinon,ilestnonparamétrique.Lemodèlestatistique{N(m,σ2);m?R,σ>0}estparamétriqueetidenti-fiable,mais{N(m,σ2);m?R,σ?=0},quiestaussiparamétrique,n'estpasiden-tifiablecarN(m,σ2)=N(m,(-σ)2).Parailleurs,lemodèleconstituédetouteslesloisàdensitéestnonparamétrique.Ons'intéresseradanscecoursauxmodèlesparamétriques.Lecadreestplusrestrictif,maiscetinconvénientconfèreaussiaumodèleunatoutmajeurcar,lecadreétantplusrestreint,lesrésultatsobtenusserontmeilleurs.1.

4) DominationdansunmodèlestatistiqueSoitlemodèlestatistiqueparamétrique(Hn,P),avecunespaced'observationsindividuellesH?Rk.Rappelonsque,pour2mesuresσ-finiesµetνsurRp,µestabsolumentconti-nueparrapportàν,etonnoteµ?ν,sipourtoutA?B(Rp)telqueν(A)=0,onaµ(A)=0.Danscecas,lethéorèmedeRadon-Nikodymnousdonnel'existenced'unefonctionmesurablefetν-p.p.positive,appeléedensitédeµparrapportàν,tellequedµ=fdν.SiνestlamesuredeLebesgue,onparleplussimplementdeladensitédeµ.Enfin,siµestbornée,festν-intégrable.DéfinitionLemodèlestatistique(Hn,P)estditdominésiilexisteunemesureσ-finieµtellequeP?µpourchaqueP?P.Lamesureµestappeléemesuredominantedumodèle.10CHAPITRE1.MODÉLISATIONSTATISTIQUELesmodèles{N(m,σ2);m?R,σ>0}et{B(p)?n;p?]0,1[}sontdomi-nés:unemesuredominantedupremierestlamesuredeLebesguesurR,alorsqu'unemesuredominantedusecondest(δ0+δ1)?n.Demanièreplusgénérale,lesexemplesdemodèlesdominésquenousrencontreronsleserontsoitparrap-portàunemesuredecomptage,soitparrapportàunemesuredeLebesgue.ThéorèmeSupposonsque(Hn,P)estdominé,etnotonsconv(P)sonconvexi-fié,i.e.conv(P)=?∑?a?P?,avecP??P,a?≥0et∑?a?=1?.Alors,ilexisteuneprobabilitédeconv(P)quidomineP.PreuveSoitµunemesuredominante.OnnoteCl'ensembledesévénementsCtelsqu'ilexistePC?conv(P)dontladensitéfCparrapportàµvérifiefC>0µ-p.p.surC.Choisissons(C?)?≥1,unesuitedeC,telleque:lim?→∞µ(C?)=supC?Cµ(C)≤+∞.OnnotePC?laprobabilitéassociéeàchaqueC?,etfC?ladensitéassociée.Soitaussi:¯C=??≥1C?,f=∑?≥12-?fC?.LaprobabilitéQ=∑?≥12-?PC?,quiestdansconv(P),admetfpourdensitéparrapportàµ.Commeµ(¯C)>0etf>0µ-p.p.sur¯C,ona¯C?C.Parailleurs,onaaussiµ(¯C)=supC?Cµ(C)car,pourchaque?:µ(C?)≤µ(¯C)≤supC?Cµ(C).MontronsmaintenantqueQdomineP.SoitP?P,dedensitépparrapportàµ,etAunévénementtelqueQ(A)=0.NousdevonsmontrerqueP(A)=0.Comme0=Q(A∩¯C)=?A∩¯Cfdµetquef>0µ-p.p.sur¯C,onaµ(A∩¯C)=0,d'oùP(A∩¯C)=0carP?µ.Parailleurs,P(¯Cc)=0.Eneffet,ilestclairque¯C?{f+p>0}µ-p.p.,etcomme1.5.ESTIMATION11{f+p>0}?C(considérerlaprobabilité(P+Q)/2?conv(P)),lapropriétédemaximalitéde¯Cmontrequeµ(¯C)=µ({f+p>0}).Parsuite,¯C={f+p>0}µ-p.p.car¯C?{f+p>0}µ-p.p.CommeP?µ,onaaussi¯C={f+p>0}P-p.p.etdoncP(¯Cc)=?{f+p=0}pdµ=0.EnremarquantfinalementqueA?(A∩¯C)?¯Cc,onendéduitqueP(A)=0,c'est-à-direqueP?Q.CommeQ?conv(P),lethéorèmeestdémontré.?1.

5) EstimationSoitlemodèlestatistiqueparamétrique(Hn,{Pθ}θ?Θ),avecunespaced'ob-servationsindividuellesH?RketunespacedeparamètresΘ?Rd.Danscemodèle,leparamètred'intérêtestθ.Silesnexpériencesduphénomènesontin-dépendantes,onaalorsPθ=Q?nθpourchaqueθ?Θ.Lesdéfinitionsquisuivents'adaptentsansdifficultéaucasoùleparamètred'intérêtestunefonctionboré-liennedeθ.DéfinitionUnéchantillondeloiPθestunev.a.canoniquesur(Hn,Pθ).Onrappellequ'unev.a.canonique(X1,···,Xn)sur(Hn,Pθ)estunev.a.quivérifiepourchaquei=1,···,n:Xi:(x1,···,xn)?Hn?→xi?H.Latailledel'échantillonestlenombred'expériencesaléatoires.Dansl'exempledelasection1.1,latailledel'échantillonestn=1000,etunesuiteX1,···,Xndev.a.i.i.d.issuesdelaloiB(p)constitue,aprèsconcaténation,unéchantillondelaloiB(p)?n.Al'aidedecettemodélisationstochastique,l'enjeuestdeconstruireunefonctiondel'échantillon,quifourniral'informationsurleparamètreinconnu,notép0danslasection1.1.Cecinousamèneàlanotiond'estimateur,quiestunequantitécenséêtreprocheduparamètre.Différentesnotionsdeproximitéserontabordéesauchapitre2.Définitions1.Unestatistiqueestunev.a.définiesurHn,i.e.unefonctionboréliennedéfiniesurHn.12CHAPITRE1.MODÉLISATIONSTATISTIQUE2.Unestimateur(deθ)estunestatistiqueindépendantedeθàvaleursdansunsur-ensembledeΘ.RemarqueUnéchantillondeloiPθétantunev.a.canonique(X1,···,Xn),ils'en-suitqu'unestatistiques'écritaussi:g(.)=g(X1,···,Xn).Onutiliseral'uneoul'autredecesreprésentations,selonlecontexte.Parexemple,pourinsistersurlefaitquelastatistiquedépenddel'échantillon,onutiliseralareprésentationg(X1,···,Xn).Pourdistinguerunestatistiqued'unestimateur,onnoteracedernieravecunchapeau.Dansl'exempledelasection1.1,si(X1,···,Xn)estunéchantillondelaloiB(p)?n,X1et¯Xnsontdesestimateursdep.Ces2estimateursn'ontévidemmentpaslemêmeintérêt;laterminologieduchapitre2permettrad'entreprendreunepremièreclassification.1.

6) ConstructiondesestimateursSoitlemodèlestatistiqueparamétrique(Hn,{Q?nθ}θ?Θ),avecunespaced'ob-servationsindividuellesH?RketunespacedeparamètresΘ?Rd.Pourconstruireunestimateurraisonnable,onutiliseengénérall'uneoul'autredes2procéduressuivantes:leprincipedelavraisemblancemaximale,quiferal'objetduchapitre3,ouuneméthodeadhocdanslaquelle,parlecalcul,onob-servetoutd'abordcequereprésenteleparamètreθpourlaloiQθ,puisonenconstruituneversionempirique.Examinonsendétailla2èmeméthode.Dansunpremiertemps,onregardecequeceparamètrereprésentepourlaloiQθ,puisonremplacelamesureQθparsaversionempirique.Supposonsparexemplequeθ=?HfdQθ,pourunecertainefonctionconnuef?L1(Qθ).Envertudelaloidesgrandsnombres,unestimateurraisonnablesera:ˆθ=1nn∑i=1f(Xi),1.6.CONSTRUCTIONDESESTIMATEURS13si(X1,···,Xn)estunéchantillondeloiQ?nθ.Untelprocédédeconstructions'ap-pelleméthodedesmoments,bienqu'ilneconcernepasnécessairementlesmo-mentsdelaloiQθ.Bienentendu,cen'estqu'unprocédédeconstruction,etriennenousassureengénéralqu'unestimateurconstruitdelasorteaitdebonnespro-priétésstatistiques.Néanmoins,onretrouvedesestimateursnaturels.Parexemple,siθreprésentelamoyennedelaloiQθ,l'estimateurconstruitparcetteméthodeseralamoyenneempirique:¯Xn=1nn∑i=1Xi.Parailleurs,siθreprésentelavariancedelaloiQθ,l'estimateurseralavarianceempirique:ˆσ2=1nn∑i=1(Xi-¯Xn)2.D'autresprocédésdeconstructiond'estimateurssontenvisageables,enfonctiondumodèlestatistiqueétudié.Exemples1.Danslemodèle(Rn+,{E(λ)?n}λ>0),leparamètreλreprésentel'inversedelamoyennedelaloiE(λ).Unestimateurnatureldeλ,construitavecl'échantillon(X1,···,Xn)delaloiE(λ)?nestdoncˆλ=1¯Xn.2.Danslemodèle(Rn+,{U([0,θ])?n}θ>0),θreprésentelemaximumdesvaleursprisesparuneréalisationdelaloiU([0,θ]).L'estimateurnaturelconstruitavecl'échantillon(X1,···,Xn)delaloiU([0,θ])?nestdoncˆθ=max1≤i≤nXi.Unautreestimateur,construitcettefoisaveclamesureempiriqueest,parexemple,ˆθ=12¯Xn.