[PDF] Premi`eres notions de satistique Introduction aux tests statistiques





Previous PDF Next PDF



10. Tests non paramétriques

Ce sont des tests de comparaison de moyennes. Lorsque les échantillons peuvent être considérés indépendants on applique le test de Mann et Whitney pour 2 



Les tests statistiques dits ”non paramétrique”

Les tests non paramétriques que nous allons aborder dans ce cours. • Comparer deux échantillons non appariés : test de. Wilcoxon-Mann-Whitney.



Quelques mots sur les tests non paramétriques

Panorama de quelques tests statistiques. Type de test. Test paramétrique. Test non paramétrique. Comparaison de populations les.



Les principaux tests non paramétriques. Quelques généralités et

ple : Calcul par William Petty de la population des grandes villes euro- MUNTER - Consistance de tests non paramétriques pour la comparaison d'é-.



Les principaux tests non paramétriques. Quelques généralités et

ple : Calcul par William Petty de la population des grandes villes euro- MUNTER - Consistance de tests non paramétriques pour la comparaison d'é-.



Quelques tests non paramétriques

th~èse sur la distribution dans cette population alors que les tests classiques de comparaison de A. Comparaison de deux échantillons de n observations.



Quelques tests non paramétriques

th~èse sur la distribution dans cette population alors que les tests classiques de comparaison de A. Comparaison de deux échantillons de n observations.



Premi`eres notions de satistique Introduction aux tests statistiques

Tests non paramétriques. Une ? Deux ? Plusieurs populations ? • Si on ne dispose que d'une seule population on compare en général.



Chapitre 2 Comparaisons de deux distributions

Les tests non paramétriques de (Wilcoxon) Mann-Whitney et de Wilcoxon (ou On étudie deux populations P1 et P2 et deux variables qui représentent le même ...



Diapositive 1

Une question récurrente dans la comparaison de deux « moyennes » est la 2) On ne vérifie pas la normalité et on utilise un test non paramétrique.



Tests paramétriques vs non paramétriques - Ellistat

aléatoire Xétudiée est normale dans les populations considérées (hormis pour la conformité ou la comparaison de moyennes sur de grands échantillons) Cette condition n'étant pas toujours satisfaite on étudie maintenant des tests qui sont alablesv même quand la loi de X n'est pas normale Ce sont des tests de comparaison de moyennes

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Premieres notions de satistique

Introduction aux tests statistiques

Franck Picard

UMR CNRS-5558, Laboratoire de Biometrie et Biologie Evolutive franck.picard@univ-lyon1.fr

F. Picard, 1/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

La statistique une science citoyenne?

49/51, la gauche gagne ! quelle conance accordez vous a cette

armation ? Les OGM sont dangereux pour la sante ! c'est s^ur ? La population que j'observe est-elle a l'equilibre d'Hardy Weinberg ? Y-a-t-il une proportion plus elevee de suicide dans mon entreprise que dans la population generale ?

La terre se rechaue ?

Fumer tueCOUPABLE OU NON-COUPABLE ?

F. Picard, 2/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Tests et demarche scientique

Apres avoir estime un parametre, que conclure de sa valeur ? Par exemple: la proportion estimee d'electeurs qui ont voteAest b p(x) = 0:45. Que peut-on en dire ? L'estimation consiste on cherche a collecter des informations sur un parametre, et a l'estimer au mieux La demarche des tests consiste acomparerle resultat observe avec une valeur de reference: la proportion d'electeur est-elle superieure ou egale a 50%? Repondre a cette question suppose que l'on prenne en compte la variabilite de l'echantillon.La motivation des tests est la prise de decision a partir de resultats aleatoires

F. Picard, 3/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Une ? Deux ? Plusieurs populations ?

Si on ne dispose que d'une seule population, on compare en general le resultat a une reference:

Pour unparametre: 0 (moyenne), 0.5 (proportion)

Pour unedistribution: comparer aux distribution connues: les donnees sont-elles distribuees comme une loi gaussienne ? Lorsque l'on observe deux populations, on cherche souvent a les comparer La moyenne de la taille des lles et des garcons est-elle la m^eme ? La repartition du QI est-elle la m^eme pour les lles et les garcons ? Les modeles lineaires (ANOVA) permettront d'etendre ces demarches au cas de plusieurs populations

F. Picard, 4/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Tester sans modele ?

On enregistre la taille den

individus noteesx1;:::xn. On estime la taille moyenne de l'echantillonavecx= 1:91m

On souhaite determiner si la

taille des individus de la populationest egale a 1:80m en moyenne. Sans modele on peut calculerx1:80 et conclure que la taille de la population d'inter^et est dierente de 1.80m. Mais cette comparaison ne prend pas en compte la variabilite des donnees ( uctuations d'echantillonnage, exemple des arbres).

F. Picard, 5/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Le cadre des tests parametriques

La distribution des donnees est

modeliseeen utilisant une loi qui depend d'un parametre (noteeF)

Exemple de la taille (on suppose

2connue)Xi N(;2) (iid):

Testparametrique: qui

concerne les parametres du modele.

L'hypothese posee concerne

toujours lesparametresdu modele (et pasX)

Ici on pose l'hypotheseH0:f= 1:80gF. Picard, 6/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Modele et loi de la statistique-1

On appelle statistique de test

une fonction des observationsx qui permet de tester l'hypothese H 0

On la construit pour que sa

distribution sousH0soit connue

La statistique de test est en lien

avec l'estimateur du parametre du modele

Ici:T(x) =xouT(x) =x=

(connue) Si on ne dispose pas d'un modele sur les observationsXialors on ne peut pas quantier la variabilite de la statistique de testT(x).F. Picard, 7/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Modele et loi de la statistique-2

On pose un modele sur lesXi

(par exempleXi, iid,N(;2))

La statistique de testT(x) est

unerealisation deT(X)

Etant donne que l'on achoisi

une loi pour lesXion peut en deduire une loi pourT(X) Le modele permet de quantier la variabilite de la statistique de test, par exempleT(X) =XH

0N(1:80;2=n)F. Picard, 8/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Modele et loi de la statistique-3

Sous l'hypothese du modele

N(1:80;2), les quantiles de la

loi normales donnent des intervallesprevusde variations deX.

Si on prevoit un modele avec

plus de dispersion, il faudra un ecart de moyenne plus important pour detecter une dierence atypique La conclusion d'un test parametrique depend essentiellement du modele pose sur les observations

F. Picard, 9/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Vers le retour des quantiles

Sixest dans les valeurs

\medianes" de la gaussienne alors on pourra dire que la probabilite que la taille de la population soit de 1.80 est forte

Sixest dans les valeurs

\extr^emes" de la gaussienne alors on pourra dire que la probabilite que la taille de la population soit egale a 1.80 est faible Les quantiles sont utilises pour positionner la valeur observeeT(x) de la statistique par rapport a la distribution attendue deT(X) sousH0F. Picard, 10/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Quantiles et Zone de rejet

Six2] 1;q1] alors on

accepteraH0

Six2[q1;1[ alors on

rejetteraH0

La zone de rejet denit

l'ensemble des valeurs deT(x) pour lesquelles on rejetteH0

On noterala part attendue

sousH0des valeurs deT(X) dans la zone de rejet

F. Picard, 11/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Regle de decision

La demarche fondamentale

consiste a supposer que l'hypothese nulleH0est veriee

Le raisonnement consiste a

s'interroger sur le caractere plausible ou non de l'observation deT(x) sous cette hypothese

La procedure consiste arejeter

H

0quandT(X)depasseun

seuil fRejet deH0g () fT(X)seuilgF. Picard, 12/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Pourquoi choisir les quantiles comme seuil ?

Les quantiles permettent de

quantier P

0fT(X)q1g

C'est la probabilite sousH0

qu'un echantillon donne une taille qui depasseq1

Si on tirait un autre echantillon

et que l'on refaisait une mesure deT(X), on n'aurait que% de \chance" que cette nouvelle mesure depasseq1 P

0fT(X)q1gest la masse \residuelle" de distribution deT(X) qu'il

resterait si on rejetaitH0a partir deq1F. Picard, 13/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Notion de risque de premiere espece

Le principe des tests est de

prendre une decision

Donc le principe des tests est de

faire des erreurs

L'avantage des statistiques est

de pouvoir quantier ces erreurs

Si on choisitq1comme seuil,

alors on a une probabilite de de rejeter alors que l'hypothese est vraie Le risque de premiere espece correspond a la probabilite d'avoir un faux positif

F. Picard, 14/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Degre de signicativite

Besoin de calculer les quantiles

de la loi deT(X) sousH0

Besoin de recalculer le quantile

si on change

On cherche alors aquantier le

degre de signicativite de la decision

P0fT(X)tgquantie la

\queue" de distribution de la statistique de test.

8t;P0fT(X)tg: c'est le risque pris en rejettantH0a partir detF. Picard, 15/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Denition de la P-valeur

C'est la quantite qui est utilisee

par tous les logiciels pour prendre une decision

La quantiteP0fT(X)T(x)g

quantie le risque que l'on prend en rejetant l'hypothese avec les donnees observeesx

On la notePv(x), c'est un

risque reel que l'on compare a un risque admissible

Pour contr^oler le risquela

regle de Decisionsera: fP0fT(X)T(x)g gon rejetteH0.F. Picard, 16/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Deux regles de decision equivalentes

F. Picard, 17/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Resume de la procedure de test

1On recueille des donnees (x1;:::xn)2On modelise les observations (X1;:::;Xn) a l'aide d'un modele de

distributionF3On denit une hypothese nulle a testerH04On denit une statistique de testT(X) pour testerH0et on l'evalue

sur l'echantillonT(x)5On calcule la probabilite de depassement sousH0P0fT(X)T(x)g c'est la p-valeur ou \p-value"6On xe un risque7SifP0fT(X)T(x)g gon rejetteH0F. Picard, 18/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Outline

1Un peu de formalisation et de vocabulaire

2Mise en pratique des tests

3Comparaison a une valeur de reference

4Comparaison de moyennes

5Comparaison de proportions et TCL

6Tests d'adequation a une loi

7Tests non parametriques

F. Picard, 19/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Denition de plusieurs hypotheses. L'hypothese nulle On commence par denir l'hypothese nulleH0: c'est l'hypothese que l'on souhaite tester Exemple: on observe 99 votes pour"x"sur 100, est ce que"x" gagne ? On poseraH0:fp= 0:5g Un principe des tests est que l'hypothese nulle correspond a l'absence d'eet (ou de signal). La demarche consiste a accumuler des donnees pour rejeter cette hypothese.H0est l'hypothese a refuter.SousH0on est presume innocent.F. Picard, 20/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Denition de plusieurs hypotheses. L'hypothese alternative

C'est l'hypothese \contre"

laquelle on teste l'hypothese nulle.

Elle est en general denie par

un/des intervalles

SiH1ne concerne qu'une partie

de la distribution deT(X) alors le test est un test uni-lateral.

Ex:H1:f >1:80g

SiH1concerne les deux parties

\extr^emes" de la distribution de

T(X) alors le test est un test

bi-lateral. Ex:H1:f6= 1:80g

F. Picard, 21/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Pourquoi se placer \sous"H0

H0est une hypothese de travail

En supposant qu'elle est

veriee, on sait deriver les caracteristiques deT(X)

SousH1au contraire, on ne sait

rien. On sait simplement que le parametre est dierent de la valeur supposee sousH0

F. Picard, 22/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Les deux types d'erreur

L'erreur de premiere espece

PfDeciderH1alors queH0est vraieg

L'erreur de deuxieme espece

PfDeciderH0alors queH1est vraieg

La puissance d'un test:

= 1

La determination dedepend

de ce qui se passe sousH1 (souvent inaccessible)

F. Picard, 23/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

On se trompe toujours ! Choix de l'absurde

Les deux risques sont lies et varient generalement en sens inverse:MAISl'idee de Neyman et Pearson est de supposer queles hypotheses

H

0etH1ne jouent pas des r^oles symetriques

En generalH0suppose l'absence d'eetLa strategie consiste a xer un risque tolerable(faux positifs), et

de trouver le test qui maximise la puissanceF. Picard, 24/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Du r^ole central de la denition de l'hypothese nulle

Fixera prioricorrespond auprincipe de precaution

Plusdiminue, plus le test devientconservatif: on aura tendance a conserverH0Cet a priori signie queest le risque maximum que l'on est pr^et a prendre en rejetantH0a tortF. Picard, 25/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Outline

1Un peu de formalisation et de vocabulaire

2Mise en pratique des tests

3Comparaison a une valeur de reference

4Comparaison de moyennes

5Comparaison de proportions et TCL

6Tests d'adequation a une loi

7Tests non parametriques

F. Picard, 26/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Les principaux tests a conna^tre

Comparaison d'un parametre(esperance, probabilite de succes, variance) a une valeur de reference (test gaussien, de Student, binomial, et du chi2, test de rang) Comparaison d'une distributionempirique a une distribution theorique de reference (test du chi2, de Kolmogorov-Smirnov) Comparaison dedeux populations(esperances, probabilites de succes, variance), tests gaussiens, de Student, binomial et de Fisher Comparaison dedeux distributions(Kolmogorov, test de rang)

Test d'independanceF. Picard, 27/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

...Ou comment s'y retrouver ? La diversite des situations, et l'inventivite des statisticiens creeent une diversite de situations / tests possibles En pratique, la diculte est souvent: \Je fais quoi dans quelle situation" ?En statistique, on raisonne (toujours) en terme d'information disponible: r^ole central du nombre d'observations On aura souvent la contrainte du nombre d'observations disponibles (realite experimentale)

Le l directeur du choix utilise un principe simple:Plus on dispose d'information, plus on peut faire des hypotheses

fortes

F. Picard, 28/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Hypotheses fortes / faibles pour comparer deux populations La contrainte provient principalement de la disponibilite des donnees Le caractere fort/faible des hypotheses concerne essentiellement la specication du modele SiFspecie une loi particuliere: on fait une hypothese tres forte

sur la distribution des donnees et sur sa parametrisation.Dans ce cas, il faut \beaucoup" d'observations, et on se focalise

sur le parametref0=1g Si on a moins d'information, peut-^etre que la distribution des observations ne peut ^etre \contrainte" par unFparticulierDans ce cas, on se focalise \uniquement" sur les distributionsfF0=F1gF. Picard, 29/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Outline

1Un peu de formalisation et de vocabulaire

2Mise en pratique des tests

3Comparaison a une valeur de reference

4Comparaison de moyennes

5Comparaison de proportions et TCL

6Tests d'adequation a une loi

7Tests non parametriques

F. Picard, 30/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Est ce qu'on abbat les arbres ou pas ?

L'exploitant de parcelles d'arbres doit decider s'il abbat ou non les arbres d'une parcelle. Au vu d'expertises anterieures, il sait qu'il peut abbattre les arbres quand leur taille est au moins de 25cm. Il recueille donc la taille de

11 arbres de la parcelle 1 et 10 arbres de la parcelle 2.Type 1 23.4 24.4 24.6 24.9 25 26.2 26.3 26.8 26.8 26.9 27

Type 2 22.5 22.9 23.74 24.0 24.4 24.5 25.3 26 26.4 26.7 . On considere des echantillons de2 populations independantesde taillen1etn2, notesx1= (x11;:::;x1n1) etx2= (x21;:::;x2n2). On suppose que la variable d'inter^et peut ^etre modelisee par uneloi gaussienne, telle que: X

1iiidN(1;2);X2iiidN(2;2); 2connue:F. Picard, 31/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Est ce qu'on abbat les arbres ou pas ?

H

0On souhaite tester les hypothesessur le parametre d'esperance

On fait l'hypothese de \pas d'eet" (donc \on n'abbat pas les arbres"): H

0:f1<25g;H0:f2<25g;

H

1On denit l'alternative:

H

1:f125g;H0:f225g

Etant donne que l'hypothese porte sur le parametre d'esperance, on estime les parametres du modele et on calcule la statistique de test

T(X) =X25

pn;(suppose connu dans un premier temps)Type Moyenne Ecart-type nb obsT(x)PfT(X)t(x)g1 25.66 1.24 11 1.7653 0.053

2 24.64 1.43 10 -0.7960979 0.222

F. Picard, 32/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Cas unilateral et bilateral

Dans le cas d'une hypothese uni-laterale: on calcule le degre de signicativite du test avec H

1:f1> 0g;Pv(T(x)) =P0fT(X)>T(x)g

H

1:f1< 0g;Pv(T(x)) =P0fT(X)

Dans le cas d'une hypothese bi-laterale:

H

1:f16=0g;Pv(T(x)) =P0fT(X)>jT(x)jg

Les Pvalues se calculent a l'aide des fonctions de repartition des statistiques de test (en utilisant les logiciels)

F. Picard, 33/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Outline

1Un peu de formalisation et de vocabulaire

2Mise en pratique des tests

3Comparaison a une valeur de reference

4Comparaison de moyennes

5Comparaison de proportions et TCL

6Tests d'adequation a une loi

7Tests non parametriques

F. Picard, 34/69

FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques

Le test gaussien de comparaison de moyennes

Obs On consid eredes echantillonsde 2 populations independantesde taillen1etn2, notesx1= (x11;:::;x1n1) etx2= (x21;:::;x2n2). F On suppose que la variable d'inter^et peut ^etre modelisee par uneloi gaussienne, telle que: Xquotesdbs_dbs23.pdfusesText_29

[PDF] recueil de donnees statistiques sur l 'emploi au burkina faso

[PDF] Guide du déposant - ANR

[PDF] Appel ? projets générique 2017 - ANR

[PDF] - 1 - Sélection de la thématique ou le « Défi de tous les savoirs » - 2

[PDF] Premiers résultats de l 'appel ? projets générique 2017 - ANR

[PDF] Plan d 'action 2018 - ANR

[PDF] Appel ? projets générique - ANR

[PDF] appel a projets generique - ANR

[PDF] Plan d 'action 2017 - ANR

[PDF] rapport annuel - L anrt

[PDF] ANSD-AOÛT 2015

[PDF] Décision du 11/05/2017 portant suspension des essais - Ansm

[PDF] TOEIC Listening and Reading Examinee Handbook - ETS

[PDF] Plaquette ANTAGENE

[PDF] iec