Analyse du modèle de régression logistique
où I(?) désigne la matrice d'information de Fisher du modèle au point ?. Comment tester l'effet d'une variable explicative qualitative ? Pour.
POUR COMPRENDRE LINDICE DES PRIX
Comment faire la synthèse des évolutions de prix élémentaires ? ............ 19 ... Un résultat important est que l'indice de Fisher est une.
Statistiques mathématiques
3.2.1 Modèle statistique régulier information de Fisher . En statistiques il n'est pas question de comprendre exactement comment l'observation X.
Modélisation Statistique (MAP-STA1) - M1-Mathématiques
Information de Fisher. Efficacité. Estimation par. Maximum de. Vraisemblance. Définition. Propriétés. Wald et Delta-méthode.
4 Lois a priori
Rappels sur l'information de Fisher – Soit un n-échantillon (X1···
Notes et commentaires au sujet des conférences de S. Mallat du
19 janv. 2022 Concernant l'Information de Fisher c'est l'idée de calculer ... "assez loin de comprendre" (sic): pourquoi cela marche? comment relier les ...
Cours de Statistiques inférentielles
suit une loi de Fisher-Snedecor à (?1?2) degrés de liberté
Processus dapprentissage savoirs complexes et traitement de l
14 nov. 2013 Processus d'apprentissage – Traitement cognitif de l'information – Changement ... Comment comprendre le rejet de l'école et des matières ...
8. La Vraisemblance
que nous allons considérer comment fonction de ? pour 0 ? ? ? 1 espérée (parfois aussi information de Fisher) I(?) sont. J(?) = ?d.
Comprendre lergothérapie auprès des enfants [ANFE]
28-29 Les actions d'information L'ergothérapie consiste à comprendre et ... Son ergothérapeute utilise l'AMPS (Fisher & James
Statistiques mathématiques
Equipe pédagogique: A. Barakat, T. Bonald, A. Sabourin, U. Simsekli, G. Staerman mise à jour: septembre 2019Table des matières
1 Analyse statistique des données
41.1 Objectifs de l"analyse statistique, exemples
41.2 Formalisation statistique d"un problème
61.2.1 Cadre probabiliste, notations
61.2.2 Modèle statistique et paramétrisation
71.3 Modèles paramétriques, non-paramétriques; identifiabilité.
81.4 Modèles dominés
111.5 Nombre d"observations
131.6 Actions, procédures de décision, fonction de perte et risque
131.7 Règles randomisées (règles mixtes)
?. . . . . . . . . . . . . . . . . . . . . . . .171.8 Résumé du chapitre
182 Estimation ponctuelle
202.1MetZ-estimateurs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2 Méthode des moindres carrés
212.3 Méthode des moments
222.4 Méthode du Maximum de vraisemblance
272.5 Famille exponentielle
?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .302.6 Maximum de vraisemblance pour la famille exponentielle
?. . . . . . . . . . .313 Risque quadratique
333.1 Risque quadratique
333.2 Information de Fisher, Borne de Cramér-Rao
353.2.1 Modèle statistique régulier, information de Fisher
353.2.2 Borne de Cramér-Rao : paramètre scalaire
373.2.3 Borne de Cramér-Rao : paramètre vectoriel
393.2.4 Cas des famille exponentielle
404 Optimalité des décisions :
cadre classique et cadre bayésien 424.1 Difficultés liées à la minimisation uniforme du risque
424.2 Optimalité du risque sous contrainte
434.3 Risque minimax
444.4 La modélisation bayésienne
454.4.1 Modèle bayésien
454.4.2 Loi jointe, loi marginale des observations
461
4.4.3 Conditionnement. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.4.4 Loi a posteriori
484.4.5 Espérance a posteriori
494.5 Familles conjuguées
534.6 Risque bayésien, risque intégré
545 Tests statistiques
585.1 Tests statistiques et théorie de la décision
585.1.1 Risques et puissance d"un test
585.1.2 Tests randomisés
?. . . . . . . . . . . . . . . . . . . . . . . . . . . . .615.1.3 Approche de Neyman-Pearson
625.2 Test de Neyman-Pearson (Rapport de vraisemblance) : cas d"hypothèses simples
635.3 Existence d"un test U.P.P. avec randomisation
?. . . . . . . . . . . . . . . . .645.4 Exemples
655.5 Rapport de vraisemblance monotone
705.6 Approche bayésienne
755.7 Lien entre approche bayésienne et approche de Neyman-Pearson
786 Intervalles et régions de confiance
826.1 Régions et intervalles de confiance
826.2 Lien avec la théorie de la décision
836.3 Construction à l"aide de fonctions pivotales
846.4 Dualité entre régions de confiance et tests d"hypothèse de base simple
896.5 Le cas du rapport de vraisemblance monotone
91A Rappels de probabilité
93A.1 Espace de probabilité
93A.2 Probabilité
94A.3 Variables aléatoires
96A.4 Quelques inégalités utiles
101A.5 Mesuresσ-finies. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 A.6 Moments d"ordrep, espacesLpetLp. . . . . . . . . . . . . . . . . . . . . . .103
A.7 Variance, covariance
104A.8 Indépendance. Mesures produits
105A.9 Fonction caractéristique
108A.10 Fonction génératrice des moments
109A.11 Espérance conditionnelle
109A.12 Lois usuelles
116A.12.1 Loi gaussienne
116A.12.2 Propriétés
118A.12.3 Vecteurs aléatoires gaussiens et densités 119
A.12.4 Loi Gamma
119A.12.5 Loi duχ2àkdegrés de liberté. . . . . . . . . . . . . . . . . . . . . . 120
A.12.6 Loi de Student
122A.12.7 Loi de Fisher
1232 Ce cours de statistique s"appuie principalement sur les ouvrages deBic keland Doksum 2015
Lehmann and Casella
1998Lehmann
1959] et Shao 2008
3
Chapitre 1
Analyse statistique des données
1.1 Objectifs de l"analyse statistique, exemples
La plupart des études et des expériences, commerciales, industrielles, ou scientifiques,produisent des données. Au cours de la dernière décennie, le volume total des données stockées
a considérablement augmenté, ainsi que les moyens informatiques permettant leur traitement. Une prise de conscience s"opère sur la valeur potentielle de ces grandes masses de données, aussi bien pour le secteur privé que pour le secteur public (par exemple, dans les domaines de la santé publique ou de la gestion des risques industriels, sociétaux ou environnementaux). L"objet des statistiques est d"extraire de ces données " de la valeur », autrement dit desinformations utiles. Le point de vue particulier des statistiques est de considérer ces données
comme la réalisation d"une expérience aléatoire. La modélisation mathématique de celle-
ci permet de conduire une analyse et un traitement adapté des données (le plus souvent automatique) afin de répondre à des objectifs concrets comme l"apprentissage, le contrôle de qualité, etc. La plupart de ces objectifs particuliers ont un point commun : il s"agit defournir des outils d"aide à la décision en milieu incertain, en extrayant l"information partielle
contenue dans les données à disposition de l"analyste. Dans la suite de ce cours, on utiliseraindifféremment les termesinférence,apprentissage,analyse statistiquepour faire référence à
un processus automatisé d"extraction d"information à partir des données. Avant de formaliser
cette approche, donnons quelques exemples.Exemple 1.1(Nombre d"objets défectueux):
Considérons une grande population deNéléments, par exemple des objets manufacturés ou des
clients d"une entreprise, ou des patients exposés à une maladie. Un nombre inconnu de ces objets,
Nθest défectueux (resp.est sur le point de résilier son contrat, c"est-à-dire de " churner », ou est
malade). Il est trop coûteux d"examiner individuellement chacun de ces objets. On s"intéresse à la
proportion de défautsθ. Pour obtenir une information surθ, on tire sans remise un échantillon de
néléments parmiNet l"on observe le nombreXd"éléments défectueux (resp. de churners, ou de
malades) dans cet échantillon. La description mathématique de cet exemple est simple. Le nombreXd"objets défectueux parmi lesnobjets choisis au hasard est appelée "observation". L"observation prend donc ici des valeurs entières, positives. Pourn,Netθfixés, on calcule facilement la loiPθ: 1. T outd"ab ord,Xne "peut pas" valoir plus quen, ni queNθ(la quantité totale d"objets 42.D"autre pa rt,Xest positive, et le nombre d"objets non défectueux restants après le tirage,
N(1-θ)-(n-X)est positif. Autrement dit, avec probabilité1,X≥max(0,n-N(1-θ)). 3. Enfin, p ourkun entier entre les deux bornes ci-dessus, la probabilité de choisirkest obtenue par dénombrement : le nombre de choix dekdéfectueux parmiNθ, multiplié par le nombre de choix de(n-k)non-défectueux parmi lesN-Nθéléments non défectueux, divisé par le nombre total de choix possibles denéléments parmiN.On a montré :
Pθ({k}) =P(X=k) =?
Nθ k)(N-Nθ n-k)( N n),sik? {max(n-N(1-θ),0),...,min(Nθ,n)},0,sinon
La loiPθdéfinie ci-dessus est appeléehypergéométrique, notéeHyper(Nθ,N,n). Cette loi dépend
den,Netθ. La notationPθrend compte du fait queθest un paramètre inconnu qui détermine (une fois fixésNetn) la loi deX. Dans cet exemple, la description de l"expérience aléatoireproduisant l"observation nous a permis de spécifier la loi de probabilité de l"observation à l"inconnue
θprès. Autrement dit, notre connaissance sur cette loi est qu"elle appartient à une famille Pθ=Hyper(Nθ,N),θ? {0,1N
,2N ,...,1}? L"expérience nous fournira une information permettant par exemple d"estimer la valeur deθ. Par exemple, on peut montrer que l"espérance deXvautnθ. Un estimateur "raisonnable" deθ(au sens où l"estimation est "en moyenne juste", c"est-à-dire "non-biaisée"), est ?θ=X/n. L"estimateur est bien une fonction des données. Exemple 1.2(Modèle à deux échantillons, test A/B): SoientX= (X1,...,Xm)etY= (Y1,...,Yn)les réponses respectivement demsujets ayantune pathologie particulière à un traitement A et densujets souffrant de la même pathologie à un
traitement B. Par convention, A est un traitement standard ou un placebo etXest la population de dite decontrôle. Un placebo est une substance dont on est sûr qu"il n"a pas d"effet sur lapathologie considéré, et est utilisé pour corriger l"effet "placebo".Yreprésente les réponses des
patients à un nouveau traitement, dont on évalue l"effet par rapport au placebo. On appelleY l"observation de la population test. Dans le cadre du marketing,Aest un produit ou une page web standard, alors queBest une nouvelle version, dont on cherche à déterminer l"effet sur les consommateurs en soumettant la population de contrôleXà une version standard alors qu"on proposeBà la population testY.Les hypothèses naturelles sont
(i) Les v.a. X1,...,Xmsonti.i.d.(indépendantes et identiquement distribuées) de loiFet Y1,...,Ynsont i.i.d. de loiG, indépendantes deX. La loi jointe de toutes les observations
est donc spécifiée par la donnée de la paire(F,G), (ii) Une hyp othèsesouvent faite est celle de la constance de l"effet du traitement. Supposons quele traitement A soit administré à un patient, et que la réponsexsoit obtenue. L"hypothèse de
la constance de l"effet de traitement consiste à dire que si le traitement B avait été administré
à ce même patient, alors la réponsey=x+ Δaurait été obtenue, oùΔne dépend pas de
x. En terme probabiliste, ceci signifie que siFest la loi de la population de contrôle, alors la loi de la distribution de test estG(·) =F(.-Δ). Nous appellerons de tels modèles des modèles detranslation. 5 (iii)Une autre hyp othèsesimplificatrice p eutêtr efaite. On p eutsupp oserpa rexemple que la loiFde la population de contrôle est une loi normale de moyenneμet de varianceσ2,F=N(μ,σ2). Sous l"hypothèse précédente,G=N(μ+ Δ,σ2). Ce modèle, très classique,
est le modèle à deux échantillons gaussiens, de même variance.L"analyse statistique aura alors pour but, par exemple de déterminer (toujours au vu des données)
siΔest significativement différent de0ou non (cadre des tests statistiques, que nous verronsdans un chapitre ultérieur), ou encore d"estimer la valeur deΔ(cadre de l"estimation ponctuelle),
ou de déterminer siΔest plus grand qu"un certain seuil réglementaireδ0fixé (à nouveau, cadre
d"un test statistique).L"exemple
1.2 mon treque plusieurs mo dèlesson ten visageablesp ourune même exp ériencealéatoire. D"où la question duchoix du modèle. Ce qui fait un bon modèle est un mélange
d"expérience, de connaissance a priori, de considération sur les lois physiques (ou économiques,
biologiques, ...) ayant engendré les données et bien sûr d"hypothèses de travail. Une spécifica-
tion très précise de la structure du modèle permet en général de réduire la partie inconnue du
modèle (les paramètresμ,Δetσ2dans l"exemple1.2 sous l" hypothèse(iii)), ce qui simplifie
les procédures d"estimation de grandeurs d"intérêt dépendant de la loi inconnue des observa-
tions. Cependant, si le modèle est mal spécifié, nos analyses, bien que correctes sur le plan
mathématique, peuvent conduire à des interprétations fausses des estimations produites.1.2 Formalisation statistique d"un problème
Généralisons les exemples précédents :1.2.1 Cadre probabiliste, notations
Un rappel succinct des éléments et des notations indispensables de théorie de la mesure et de l"intégration est donné en annexe (chapitre A Donnons-nous tout d"abord un universΩ, un ensemble non vide décrivant l"ensemble desréalisations possibles de l"expérience. Un élémentω?Ωest uneréalisation(ouépreuve)
particulière. Par exemple, dans l"exemple 1.1 , on peut prendre comme espaceΩl"ensemble {0,1}nou{D,N}n(D: objet défectueux;N: objet non-défectueux); Malheureusement l"ensemble des réalisationsΩn"est pas toujours aussi simple (fini ou dénombrable). Une expérience décrite par un nombre réel quelconque,Ω =R, une mesure d"une quantité numérique par exemple ne se décrit pas par un ensemble dénombrable depossibilités. On introduit donc la notion d"événement: un événement est un sous-ensemble
particulier deΩ. L"ensemble desévénementsque l"on noteraF, aura la structure d"une tribu, on appellera donc cet ensembleFlatribu des événements.1. Pour la modélisation statistique, nous nous concentrons souvent sur certaines quantités résumant l"issue de l"expérience : dans l"exemple 1.1 , on s"intéresse seulement au nombred"objets défectueux et non pas à l"ordre dans lequel les objets défectueux apparaissaient dans
l"échantillon. Pour prendre en compte ce fait, on construit 1. un e spaced" observationsX, a priori distinct de l"espace des épreuvesΩ, que nousmunissons d"une tribuB(X), composée de parties deX;1. La notion de tribu impose des propriétés minimales de stabilité pourFnécessaires au calcul des proba-
bilités de ces ensembles. Pour la compréhension de ce chapitre, on peut supposer que latribu des événements
est tout simplement l"ensemble des parties deΩ. 62.une v ariablealéatoire X(appeléeobservation) définie sur l"espace des épreuves(Ω,F)et
à valeurs dans l"espace des observations(X,B(X)), c"est-à-dire une fonction mesurableX: (Ω,F)→(X,B(X)).
Dans l"exemple
1.1 , l"espace des observations estX={0,1,...,n}, à savoir le nombre d"objets défectueux dans un échantillon denobjets; alors que l"ensemble des événements estΩ = {0,1}n. CommeΩetXsont dénombrables, nous munissons ces ensembles des tribus de toutes leurs parties,F=P(Ω)etB(X) =P(X). La variable aléatoireXest alors donné par X(ω1,...,ωn) =?ni=1?{ωi= 0}, où(ω1,...,ωn)? {0,1}n. Dans certaines situations, il n"est pas nécessaire de distinguer l"espace des épreuvesΩ et l"espace des réalisationsX. Dans ce cas, on posera(Ω,F) = (X,B(X)), et on prendra simplementX(ω) =ωpour toutω?Ω. Remarquons que, jusqu"à présent, on n"a pas introduit de loi de probabilitéPsur(Ω,F) ni de loiPsur(X,B(X))selon laquelleXserait générée. En effet, en statistique, une telleloi sous-jacente est inconnue et l"objectif général de l"analyse statistique est d"extraire une
information de l"observationXconcernant la loi de probabilité qui l"a générée.1.2.2 Modèle statistique et paramétrisation
En statistiques il n"est pas question de comprendre exactementcommentl"observationXa été générée. En revanche il s"agit de comprendre le mieux possible quelle est saloi. Cette
connaissance provient d"une part d"une connaissancea prioriet d"autre part du résultat d"uneexpérience aléatoire. La connaissance a priori est formalisée par la donnée d"une familleP
de probabilités sur l"espace des observations(X,B(X)). La famillePsera appelée lemodèlestatistiquepour le problème considéré. Dans l"exemple1.1 , le modèlePest la famille des lois
hypergéométriques de paramètreθpour un échantillon de taillend"une populationN. On verra plus tard, au chapitre concernant la statistique bayésienne, qu"on peut aller plus loin dans la formalisation de la connaissance a priori.Il est souvent pratique de définir uneparamétrisationdu modèle, c"est-à-dire d"étiqueter
chaque loiP? Ppar unparamètreθ?Θ, oùΘest un ensemble quelconque appeléespace desparamètres. On écrira alorsPθpour désigner la loi ainsi étiquetée. On choisira en particulier
Θde sorte que la loiPθsoit entièrement déterminée par le paramètreθ. Formellement,
une paramétrisation dePest une applicationθ?→Pθdéfinie del"espace des paramètres Θdans l"ensembleP, surjective (chaque loiPdoit pouvoir être étiquetée). Dans l"exemple introductif 1.1 , si l"on fixeNetn, la loiPdeXest entièrement déterminée parθ. On peut donc écrirePθ=Hyper(Nθ,N). L"ensemble des lois possibles des observations est donc P={Pθ,θ?Θ}où l"ensemble des paramètresΘest{0,1/N,...,1}. Définition 1.2.1(Modèle statistique, espace des paramètres).Nous appelonsmodèle sta- tistiqueune famille de probabilitésPsurl"espace des observations(X,B(X)). SiΘest un ensemble quelconque tel queP={Pθ,θ?Θ},
alorsΘest appeléespace des paramètresdu modèle. Remarque 1.2.2.(Existence) Remarquons qu"il est toujours possible de paramétrer un en- semble par lui-même,vial"application identité. On pourra donc toujours définir un espacedes paramètresΘ, quitte à prendreΘ =P, ce qui ne présente pas beaucoup d"intérêt mais
nous permettra d"écrire systématiquement les modèles considérésP={Pθ,θ?Θ}sans avoir
besoin de se poser la question de l"existence d"une telle paramétrisation. 7Le résultat d"une expérience aléatoire est alors interprété comme étant la réalisation d"une
variable aléatoireXà valeurs dansXet de loiPθappartenant au modèle statistiqueP, c"est-à-dire telle queθ?Θ. La variableXs"appelle l"observation(ou encore la donnée, les données, ...). Dans la suite de ce cours, la notation "X≂Pθ» signifie " La variable aléatoireXest distribuée selon la loiPθ». Le travail du statisticien peut se décrire ainsi : •La seule connaissance mise à la disposition du statisticien est un modèle P={Pθ,θ?Θ}et une réalisation de l"observationX≂Pθ, oùθ?Θest inconnu. •L"objectif est d"approcher une certaine quantité d"intérêtg(θ)(dépendant uniquement deθ) en utilisant une procédure fondée uniquement sur l"ob- servationX(une fonction ne dépendant que deX). Autrement dit, le statisticien est amené à proposer des méthodes construites à partir defonctions des données. Ceci mène à la notion destatistique, qui a un sens précis donné dans la
définition 1.2.3 ci-dessous. Rapp elonsque si ?est une fonction mesurable définie sur(X,B(X)) à valeurs dans(Rd,B(Rd)), alors?(X)est encore une variable aléatoire (en effet, la fonction ?◦Xest mesurable de(Ω,F)dans(Rd,B(Rd))). Définition 1.2.3.Unestatistiqueest une variable aléatoire s"écrivant comme une fonction mesurable des observations, de type?(X)où?: (X,B(X))→(Rd,B(Rd))est une fonction mesurable. Ainsi, une statistique est une fonction mesurable quelconque des observations.Quand il sera nécessaire d"utiliser la v.a.X, définie sur(Ω,F)et de loiPθ, dans les calculs,
on utilisera la notationPθetEθpour la probabilité définie surFet l"espérance associée, par
exemple, Pθ(X?A) = Pθ(A)etEθ[?(X)] =?
quotesdbs_dbs22.pdfusesText_28[PDF] La fiscalité intérieure au Burkina Faso est régi par les principaux
[PDF] Télécharger en français - Direction Générale des Impôts
[PDF] le guide du retraite - crrae
[PDF] Le calcul des pluies moyennes mensuelles et annuelles sur bassin
[PDF] Pension de vieillesse au Luxembourg - CNAP
[PDF] Taxe professionnelle - Fondation Création d 'Entreprises
[PDF] Limites de fonctions 1 Théorie 2 Calculs
[PDF] Le contrôle de gestion dans la Grande Distribution - DoYouBuzz
[PDF] Exercices - Calcul d intégrales : corrigé Intégration par parties
[PDF] Seconde - Calcul de probabilités - Parfenoff
[PDF] formules de topographie2016AP
[PDF] TD d 'exercices de Géométrie dans l 'espace - Math93
[PDF] Limitation desdébitsd 'eauxpluvialesen - AgroParisTech
[PDF] referentiel indemnisation - Oniam