[PDF] Principe des tests statistiques 1 Principe des tests statistiques



Previous PDF Next PDF







Principe des tests statistiques 1 Principe des tests statistiques

1 6 Liens entre p-value et statistique de test dans quelques cas simples Soit H 0 une hypoth ese privil egi ee On d esire tester cette hypoth ese vis a vis d’une hy-poth ese alternative Soit Tla statistique de test ( a valeurs r eelles) utilis ee pour e ectuer le test de H 0, c’est- a-dire v eri er si H 0 est vraie On d esigne par P



Tests d’hypothèse - WordPresscom

Un test statistique ou une statistique est une fonction des variables aléatoires représentant l’échantillon dont la valeur numérique obtenue pour l’échantillon considéré permet de distinguer entre H0 vraie et H0 fausse Dans la mesure où la loi de probabilité suivie par le paramètre p0 au niveau de la population



Exercices et problèmes de statistique et probabilités

Exercices et problèmes de statistique et probabilités Thérèse Phan Jean-Pierre Rowenczyk 2e édition “doc” (Col : Science Sup 19 3x250) — 2012/4/27 — 14:21 — page i — #1



Fiche 19 – Statistiques : Comparaison de séries

La médiane d'une série statistique est la valeur pour laquelle il y a autant d'individus « avant » que d'individus « après » Pour la classe1, la médiane est la 11ème valeur (en effet, l'effectif total est de 21, à la 11ème valeur il y aura 10 élèves avants et 10 après : 21 = 10 + 1 + 10) : c'est donc 3



Schémas Winograd en français: une étude statistique et

établit que nos schémas sont résistants à un test statistique basé sur l’information mutuelle; la seconde est une étude comportementale qui permet de montrer que les humains n’ont pas de difficulté pour traiter correctement les items de notre collection Notre test statistique simple ne parvient pas à



Procédures de test de la racine unitaire

la statistiquet usuelle du test de l’hypothèse nulle ρ=1, mais aussi un test de l’hypothèse nulle jointe b p = 0 et ρ=1 Les tests sont effectués à l’aide de statistiques transformées suivant la méthodologie de Phillips et Perron, leurs valeurs critiques sont obtenues par des méthodes de simulation pour p=2,3,4 et 5 (OPP,1989, p



exercices corrigés Mathématiques appliquées à la gestion

complØmentaires : l’observation statistique s’effectue à des dates discrŁtes, tandis que l’analyse thØorique repose plus volontiers sur la thØorie des fonctions, plus performante à cet Øgard



Traitement et analyse des données qualitatives

o la seconde étape a pour but de repérer les mots-clés en recherchant ceux qui sont équivalents ou synonymes L’unité d’analyse sémantique Dans ce cas l'étude peut se limiter aux passages qui ont une signification « les idées clés » au lieu de découper le texte dans son intégralité, comme dans l’analyse syntaxique (Andreani,



Les méthodes d’échantillonnage

Un chiffre tiré au hasard dans la table ne peut être retenu une seconde fois s’il ressort Par ailleurs, si le chiffre de la table ne fait pas partie des numéros attribués à votre base de sondage il ne doit pas être pris en compte Exemple On veut choisir par échantillonnage aléatoire simple, sans remise, 8 étudiants; parmi un groupe

[PDF] qu'est ce que le contrôle stratégique

[PDF] le système d'information contribue-t-il ? l'efficacité de la prise de décision

[PDF] controle stratégique management

[PDF] maths 1ere es suites exercices corrigés

[PDF] une personne loue une maison ? partir du 1er janvier 1991

[PDF] controle sur les suites numériques 1ere s

[PDF] ds suite arithmétique 1s

[PDF] ds suite arithmétique et géométrique

[PDF] ds recurrence

[PDF] devoir raisonnement par recurrence

[PDF] controle recurrence ts

[PDF] dm de maths terminale s recurrence

[PDF] calculer u1 et u2 la suite un est elle arithmétique géométrique

[PDF] ds suites arithmétiques et géométriques 1ere s

[PDF] controle sur les suites terminale s

Principe des tests statistiques

Jean Vaillant, Octobre 2020

1 Principe des tests statistiques

1.1 Introduction

Un test de signication est une procedure permettant de choisir parmi deux hypotheses celles la plus probable au vu des observations eectuees a partir d'un echantillon ou un dis- positif experimental. Ces deux hypotheses sont disjointes c'est-a-dire s'excluent mutuelle- ment. Les hypotheses auxquelles on s'interesse portent generalement sur un ou plusieurs parametres de la population statistique etudiee : ainsi, si l'on s'interesse a un caractere par- ticulier, on pourra par exemple tester l'egalite de l'esperance du caractere avec une valeur de reference. Par exemple, on peut desirer tester l'egalite d'une contenance attendue de bouteilles commercialisees, avec une valeur de reference en l'occurrence la contenance in- diquee sur l'etiquette commerciale. Un inspecteur de la direction de la consommation peut choisir un certain nombre de bouteilles dans la production de l'usine concernee. Sachant qu'il y a un alea d'echantillonnage et une variabilite dans le systeme de remplissage des bouteilles, comment tranchera t-il entre l'hypothesela contenance attendue est egale a la contenance annonceeet l'alternative contraire? Un autre exemple est celui de l'epidemio-surveillance d'une maladie concernant les bananiers dans une zone de plantation. Des bananiers sont choisis selon une procedure d'echantillonnage et sont examines an de distinguer ceux qui sont sains de ceux qui sont malades. On desire savoir si la prevalence de la maladie depasse un seuil sanitaire au dela duquel un traitement par pesticide sera applique dans la zone concernee.

1.2 Erreurs decisionnelles et risques

Le principe de base d'un test de signication est de considerer une hypothese privilegiee H

0et une alternativeH1, puis de b^atir une regle permettant de decider de rejeter ou

pasH0. Le tableau 1 resume les 4 situations possibles. L'erreur de premiere espece est de rejeter l'hypothese privilegieeH0alors qu'elle est vraie. L'erreur de seconde espece est de ne pas rejeterH0alors qu'elle est fausse.est la probabilite de rejeter a tort l'hypothese H

0;est aussi appele risque de premiere espece, ou niveau du test.est la probabilite

de ne pas rejeterH0alors que l'hypothese alternativeH1est vraie;est appele risque de seconde espece. La valeur 1est la puissance du test, et traduit la faculte de rejeter H

0quand l'alternativeH1est vraie.

Dans la pratique,est xe par l'experimentateur (les valeurs les plus courantes sont

0,05 ou 0,01. On dit qu'on contr^ole le risque de premiere espece. Par contre,peut ^etre

dicile a calculer. Heureusement, ce calcul n'est pas necessaire sauf si l'on veut comparer plusieurs procedure de tests.1 Dans la litterature,H0est aussi appeleehypothese nulleou encorehypothese principale. Elle joue un r^ole predominant par rapport a l'hypotheseH1qui est souvent l'hypothese alternative contraire. On cherche a contr^oler le risquede rejeter a tortH0en lui imposant une valeur relativement faible (au plus 0,05). Le fait d'imposer une valeur faible aconduit a n'abandonner l'hypotheseH0que dans des cas quisemblent sortir nettement de l'ordinairesiH0etait vraie.

Etat de la natureH

0H

1DecisionRejet deH01Non rejet deH01

Table 1: Risques decisionnels conditionnels a l'etat (inconnu) de la nature

1.3 Probabilite critique (oup-value ou niveau de signication observe)

Notons bien que plusest choisi petit, plus la regle de decision est stricte (ou conservative) dans la mesure ou elle aboutit a rejeterH0que dans des cas rarissimes et donc a conserver cette hypothese quelque fois a tort. Une vision moderne, liee a l'explosion de la puisssance des ordinateurs et de processus numeriques d'approximation rapides et precis, est d'acher lap-value ou probabilite critiquepc. Par denition,lap-value est la plus petite des valeurs de risque de premiere espece pour lesquelles la decision serait de rejeterH0. Une autre denition proposee par Saporta (2011,[1]) est :lap-value est la probabilite de depassement de la valeur observee par la variable de decision sousH0. La valeurpcest calculee a partir des observations et de leurs proprietes distributionnelles sousH0. Commepcest le plus petit niveau de signication auquel on rejette l'hypotheseH0, il est aussi appeleniveau de signication observe. L'amelioration fulgurante des capacites de calcul permet maintenant de baser les regles de decision sur les probabilites critiques sans forcement comparer la statistique de test avec une valeur seuil, comme cela se faisait classiquement. La denition formelle de lap-value donnee ci-dessus est dicile a ingurgiter et peut conduire a une mauvaise utilisation et/ou une mauvaise interpretation de l'inference statis- tique (Wasserstein et Lazar, 2016, [3]). Une denition litterale et plus parlante aux non inities peut ^etre la suivante :lap-value est une mesure de la compatibilite des donnees avec l'hypothese privilegiee. Plus cettep-value est proche de zero, plus la compatibilite est faible et donc conduit a rejeter cette hypothese. La proximite a zero depend de la severite que l'on s'impose a travers le risque. 2

1.4 Critere de test, Region critique, Regle de decision

Tout test d'une hypotheseH0est base sur un critereCqui est calcule a partir des obser- vations eectuees.Cest appele critere de test (ou statistique de test ou variable de decision).Cest une quantite dependant des donnees observees ou recueillies lors de l'experimentation ou l'enqu^ete. C'est donc une variable aleatoire dont la valeur observee nous permettra de determiner quelle hypothese est la plus plausible, en se referant a la distribution de probabilite de cette variable aleatoire sousH0. La prise de decision se fera selon une regle dont la forme est generalement : 8 :Rejet deH0siC2Rc() (Regle de decision de forme 1)

Non Rejet deH0siC =2Rc()

ouRc() est donc l'ensemble des valeurs pour lesquelles la statistique de test conduit au rejet de l'hypotheseH0au niveau de signication.Cet ensembleRc()est donc appele region critique (ou zone de rejet) du test au niveau. Le complementaire deRc() est l'ensemble des valeurs pour lesquelles la statistique de test conduit au non rejet de l'hypotheseH0. On l'appelle region (ou zone) d'acceptation du test au niveau. La region critique ou zone de rejet correspond donc aux valeurs deCqui seraient trop extraordinaires sous l'hypotheseH0pour ^etre considerees comme le fruit du hasard d'echantillonnage. Notons que les logiciels statistiques modernes calculent lap-valuepcet fournissent la regle de decision de niveausous la forme : 8< :Rejet deH0sipc< (Regle de decision de forme 2)

Non Rejet deH0sipc

1.5 Test unilateral, test bilateral

Rappelons que la region de rejetRc() d'un test de niveaubase sur la statistiqueCest l'ensemble des valeurs possibles deCpour lesquelles la regle de decision nous conduit a rejeterH0au niveau. Un test est dit unilateral si cette region de rejetRc() est entierement situee a une des extremites de la distribution d'echantillonnage deC. 3 Un test est dit bilateral si cette region est situee aux deux extremites de la distribution d'echantillonnage deC. La gure 1 indique des regions critiques de niveau 5% basees sur un critere de test suivant la loi normale centree reduite sousH0.-4-2024 -4-2024 -4-2024Figure 1:Regions critiques (en rouge) pour un critere de loiN(0;1) et= 0;05.

1.6 Liens entrep-value et statistique de test dans quelques cas simples

SoitH0une hypothese privilegiee. On desire tester cette hypothese vis a vis d'une hy- pothese alternative. Notons maintenant, sans perte de generalite,Tla statistique de test (a valeurs reelles) utilisee pour eectuer le test deH0, c'est-a-dire verier siH0est vraie.

On designe parP0la loi de probabilite deTsousH0.

A partir des donnees recueillies, on a une valeur observeetpour la statistique de test. Le principe general des tests d'hypothese est de rejeter l'hypotheseH0quandtest en extremite de distribution deP0et correspond donc a une valeur fort peu probable sous H

0. Pour quantier "les chances d'occurrence" d'une telle valeurtsousH0, on calcule la

probabilite critiquepcdont la denition suit : On a vu que la probabilite critiquepc(oup-value) d'un test d'hypothese pour des 4 observations donnees est le plus petit des niveaux de signication pour lesquels la decision est de rejeterH0. Autrement dit,pcest la plus petite probabilite, au vu des observations, de rejeter a tort l'hypothese privilegieeH0. Le lien avec la loi de la statistique de testTet la statistique observee est le suivant : lap-value est la probabilite qu'une realisation de la statistique de testTsoit plusextraordinaire(c'est-a-dire plus en extremite de distribution) que la valeur observeetsous l'hypotheseH0. Ainsi, de tres faibles valeurs pourpcindiquent que l'hypothese privilegieeH0est peu probable. Pluspcest faible, plus les donnees temoignent que le phenomene observe a tres peu de chances de se produire sousH0. Elles nous conduisent alors a rejeterH0.

La suite de ce paragraphe 1.6 concerne plut^ot les matheux !?Pour denir de facon rigoureuse le lien entre probabilite critiquepcet statistique de

test, il est necessaire, et c'est le cas pour toute experience aleatoire, d'introduire l'espace probabilise ( ;A;P0) ou est l'ensemble des resultats possibles de, ouAest la tribu d' evenements associes a , etP0la loi de probabilite sousH0. Le resultat observe de l'experienceest note!et on a donct=T(!). On a indique precedemment qu'un test base sur la statistiqueTest dit unilateral si, pour tout niveau, sa region de rejet est entierement situee a une des extremites de la distribution de probabilite deT. Il est dit bilateral si cette region de rejet est situee aux deux extremites de la distribution de probabilite deT..

Considerons les trois cas simple suivants :

1)

P ourun test unilat eraldroit,

p c=P0(f!2 jT(!)> tg): 2)

P ourun test unilat eralgauc he,

p c=P0(f!2 jT(!)< tg): 3) P ourun test bilat eral,a vecTde loi centree symetrique sousH0, p c=P0(f!2 j jT(!)j>jtjg): Rappelons quele niveau de signication du test est par denition la probabilite de rejeterH0alors queH0est vraie. Si la probabilite critiquepcest plus petite que le niveau de signication, alors l'hypotheseH0est rejetee. NotonsF0la fonction de repartition deTsousH0, et examinons le lien entre region critique d'un test, regle de decision et probabilite critique. 5

1)Test unilateral droit

La region critique du test est de la forme ]c1;+1[ avecc1fractile d'ordre 1de la loiF0c'est-a-direF0(c1) = 1. La probabilite critiquepcdu test unilateral droit est par denition :p c=P0(T > t) = 1F0(t):On demontre aisement le resultat suivant : p c< )t > c1(1)

Preuve :

p c< ,1F0(t)< ,1 < F0(t),F0(c1)< F0(t))c1< t:

2)Test unilateral gauche

La region critique du test est ] 1;c[ avecF0(c) =. La probabilite critiquepcdu test est par denition :p c=P0(T < t) =F0(t):On demontre que : p c< )t < c(2)

Preuve :

p c< ,F0(t)< ,F0(t)< F0(c))t < c:

3)Test bilateral avecTde loi symetrique centree sousH0

La region critique du test est ] 1;c1=2[[]c1=2;+1[ ouc1=2est le fractile d'ordre 1=2 deF0c'est-a-dire F

0(c1=2) = 12

. La probabilite critiquepcest par denition :p c=P0(jTj>jtj) =P0(T >jtj) +P0(T >jtj):Comme la loi deTest symetrique centree,Ta la m^eme loi queTet donc aussi m^eme fonction de repartitionF0. Par consequent, 6 p c= 2(1F0(jtj)):On a le resultat suivant : p c< ) jtj> c1=2:(3)

Preuve :

p c< ,2(1F0(jtj))< ,12 < F0(jtj),F0(c1=2)< F0(jtj))c1=2Les resultats (1), (2) et (3) conrment que, pour un test de niveau, l'hypotheseH0est rejetee des lors que la probabilite critique est inferieure strictement a. C'est la regle

de decision de forme 2 vue au paragraphe 1.4. Ceci est tres utile dans la pratique : la regle de decision consiste simplement a comparerpcaau lieu de comparerta des valeurs seuils fournies par des tables de fractiles de lois usuelles. Les logiciels statistiques calculent et presentent donc ces probabilites critiques, qui sont diciles a obtenir sans moyen de calcul approprie. Une autre utilisation de la probabilite critique en theorie de la decision consiste non plus a la comparer avec un seuil de signication mais de la combiner, en tant qu'indice- temoin, avec d'autres sources d'information. Notons que si la loi deTsousH0est non symetrique, plusieurs constructions de region critique sont possibles. La region critique de niveaudu test peut ^etre de la forme ] 1;c1[[]c12;+1[ ou 0< 1+2=. Pour ce qui concerne la probabilite critique dans le cas ouTa une loi non symetrique sousH0, alorspcn'est pas denie aussi simplement pour un test bilateral que ce qu'on a vu pour un test unilateral. Une maniere de proceder est de doubler la valeur de la p-value unilaterale la plus faible (gure 2). Ceci peut ^etre considere comme une correc- tion par comparaison multiple pour la realisation de deux tests unilateraux. En eet, a l'aboutissement d'un test bilateral rejetantH0, nous favorisons en general l'hypothese al- ternative dont la direction est determinee par les donnees observees. Proceder ainsi revient donc a poser :p c= 2min P

0(T < t);P0(T > t)

= 2min F

0(t);1F0(t)

:On pourra consulter Kulinskaya (2008,[2]) qui a presente et discute une approche alternative a celle de doublement de lap-value discutee ci-dessus et a celle du minimum de vraisemblance. 7 Figure 2:Test bilateral avec loi asymetrique sousH0pour le critere de testT.

Lap-value est 2min

P

0(T < tobs);P0(T > tobs)

donc 2 fois la partie indiquee en gris dans chacun des deux exemples.

1.7 Exemple du de suppose pipe sur le 1

On desire tester si un de cubique numerote de 1 a 6 est pipe sur le 1, en privilegiant l'hypothese selon laquelle il est equilibre. En notantp1la probabilite d'apparition du 1 lors d'un lancer, le probleme de test est donc : H

0:p1= 1=6 contreH1:p16= 1=6.

Si on lance 20 fois le de et que l'on considere la statistique de testTegale au nombre de 1 obtenus, alors sousH0le critereTsuit la loi binomiale de parametres 20 et 1=6. 8

05101520

0.00 0.05 0.10 0.15 0.20

Valeurs possibles

Probabilités

05101520

0.0 0.2 0.4 0.6 0.8 1.0

Valeurs possibles

Probabilités cumuléesFigure 3:Representations de la loi binomiale de parametres 20 et 1/6. La region critique de niveau 0;02 estRc(0;02) = [[8;20]]. Si l'on reduit le niveau a

0,001, on a alorsRc(0;001) = [[10;20]] Les valeurs 8 et 9 pourTqui etaient extraordinaires

au niveau 0;02, ne le sont plus au niveau 0;001.

1.8 Tests de comparaison d'une proportion a une valeur de reference

On considere une population statistique pour laquelle une proportion inconnuepd'individus verie une certaine propriete (par exemple sont atteints d'une maladie ou sont favorables a un projet). On desire comparer la valeur inconnuepa une valeur de referencep0. Par ex- emple, en epidemiologie,pest la prevalence d'une maladie etp0un seuil d'alerte sanitaire. On choisit dans cette population un nombrend'individus par tirages independants. On noteXnle nombre d'individus dans cet echantillon veriant la propriete etudiee.Xnsuit la loi binomiale de parametresnetp. On peut s'interesser aux trois problemes de test suivants :

Probleme 1.H0:p=p0contreH1:p6=p0.

Probleme 2.H0:pp0contreH1:p > p0.

Probleme 3.H0:pp0contreH1:p < p0.

Ainsi, le probleme de de truque vu au paragraphe precedent correspond au probleme 1 9 avecp0= 1=6. Pour les trois problemes de test,Xnest un critere de test pertinent pour H

0. Comme on peut approcher la loi binomiale par la loi normale de m^eme esperance et

variance pournsusamment grand (theoreme de De Moivre-Laplace, voir Saporta (2011, [1])), alors quand tel est le cas, la variable aleatoire associee standardiseeZn=Xnnppnp(1p) suit approximativement la loiN(0;1). Pourp=p0, on peut ecrire Z n=bpnp0pp

0(1p0)pn;(4)

oubpnest la proportion observee dans l'echantillon de taillen. L'expression (4) fait clairement appara^treZncomme un ecart pondere entre la proportion observeebpnet la proportion de referencep0. Pour chacun des trois probemes de test, on peut donc utiliserZncomme critere de test, ce qui nous donne (en notantuple fractile d'ordrepde la loiN(0;1) et sa fonction de repartition) les regles de decision de niveau suivantes.

Pour le Probleme 1,

8< :Rejet deH0sijZnj> u1=2

Non Rejet deH0sijZnj u1=2:(5)

Lap-value estpc= 21(jZnj).

Pour le Probleme 2,

8 :Rejet deH0siZn> u1

Non Rejet deH0siZnu1:(6)

Lap-value estpc= 1(Zn).

Pour le Probleme 3,

8 :Rejet deH0siZnNon Rejet deH0siZn u1:(7)

Lap-value estpc= (Zn).

10 Application: Dans une parcelle forestiere, des arbres d'une certaine espece sont attaques, en proportion inconnue, par un parasite. On redoute que le seuil de nuisibilite de 20% ne soit depasse car un traitement phytosanitaire co^uteux devra alors ^etre applique. Mais on privilegie l'hypothese selon laquelle le seuil de nuisibilite n'est pas atteint. On choisit independamment 50 arbres de cette espece et on en trouve 14 qui sont attaques par le parasite. On se xe un risque de premiere espece de 5%. Quelle decision doit on prendre? Nous faisons face au probleme 2 avecp0= 0;2 et= 0;05. La taillende l'echantillon vaut 50 et la proportion observeebpnest egale a 14=50 = 0;28. La statistique de test est Z

50=0;280;20p0;20(10;20)p50 = 1;414 etu10;05=u0;95= 1;645 donc on ne rejette pas

l'hypothesep0;2 au niveau 0;05. La proportion observee 28% n'est pas signicativement superieure a 20% au niveau 5%. On decide de ne pas eectuer de traitement phytosanitaire. Remarquons que, d'un point de vue pratique, il est plus simple de prendre une decision en se basant sur la valeur observeeX50pour le nombre d'arbres parasites dans l'echantillon plut^ot que de calculerZ50. En tenant compte des expressions (4) et (6), pour le probleme 2, on rejetteH0au niveausi X n=np0pp

0(1p0)pn > u

1c'est-a-dire siXn> np0+u1pnp

0(1p0):

La region critique de niveaudu test, pour le probleme 2 et le critere de testXnest donc R c() =]np0+u1pnp

0(1p0);+1[:

Dans le cas present, on a donc

R c(0;05) =]500;2 + 1;645p500;2(10;2);+1[ = ]14;65;+1[: On decidera d'eectuer un traitement phytosanitaire au niveau 5% siX5015. L'ensemble des valeurs critiques au niveau 5% pour le nombre d'arbres parasites est [[15;50]]. Notons que la loi exacte deX50est la loi binomiale de parametres 50 etp, oupest la proportion d'arbres attaques dans la parcelle. La gure 4 nous montre la distribution de probabilite pourp= 0;2, et la qualite de l'approximation de la loi binomiale par la loi normale. On retrouve la region critique [[15;50]] au niveau 5% pour le probleme de test p0;2 contrep >0;2. 11

01020304050

0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14

Valeurs possibles

Probabilités

01020304050

0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14

Valeurs possibles

ProbabilitésFigure 4:Loi binomiale de parametre 50 et 0,2 et son approximation normale. Region critique de niveau 5% pour le test dep0;2 contrep >0;2 en rouge.

1.9 Outils avec R

Dans l'environnement de calcul et programmation R (https://cran.r-project.org, [4]), on peut ecrire sa propre fonction pour executer un test statistique en faisant appel a des fonc- tions dites natives sous R (fonctions predenies pr^etes a l'emploi). Pour ce qui concerne les tests classiques d'hypotheses, il existe de nombreuses fonctions dans le package de base, sans compter celles pouvant ^etre disponibles en installant des packages speciques. Citons quelques unes des fonctions du package "stats" par ordre alphabetique : 1. c hisq.test() , test du2d'ajustement, test du2d'independance, 2. cor.test() , test de correlation pour echantillons apparies, 3. krusk al.test() , test des rangs de Kruskal-Wallis pour la comparaison de distributions, 4. ks.test() , test d'ajustement de Kolmogorov-Smirnov, 5. prop.test() , test de comparaison de proportions, 12quotesdbs_dbs15.pdfusesText_21