10. Tests non paramétriques
Ce sont des tests de comparaison de moyennes. Lorsque les échantillons peuvent être considérés indépendants on applique le test de Mann et Whitney pour 2
Les tests statistiques dits ”non paramétrique”
Les tests non paramétriques que nous allons aborder dans ce cours. • Comparer deux échantillons non appariés : test de. Wilcoxon-Mann-Whitney.
Quelques mots sur les tests non paramétriques
Panorama de quelques tests statistiques. Type de test. Test paramétrique. Test non paramétrique. Comparaison de populations les.
Les principaux tests non paramétriques. Quelques généralités et
ple : Calcul par William Petty de la population des grandes villes euro- MUNTER - Consistance de tests non paramétriques pour la comparaison d'é-.
Les principaux tests non paramétriques. Quelques généralités et
ple : Calcul par William Petty de la population des grandes villes euro- MUNTER - Consistance de tests non paramétriques pour la comparaison d'é-.
Quelques tests non paramétriques
th~èse sur la distribution dans cette population alors que les tests classiques de comparaison de A. Comparaison de deux échantillons de n observations.
Quelques tests non paramétriques
th~èse sur la distribution dans cette population alors que les tests classiques de comparaison de A. Comparaison de deux échantillons de n observations.
Premi`eres notions de satistique Introduction aux tests statistiques
Tests non paramétriques. Une ? Deux ? Plusieurs populations ? • Si on ne dispose que d'une seule population on compare en général.
Chapitre 2 Comparaisons de deux distributions
Les tests non paramétriques de (Wilcoxon) Mann-Whitney et de Wilcoxon (ou On étudie deux populations P1 et P2 et deux variables qui représentent le même ...
Diapositive 1
Une question récurrente dans la comparaison de deux « moyennes » est la 2) On ne vérifie pas la normalité et on utilise un test non paramétrique.
Tests paramétriques vs non paramétriques - Ellistat
aléatoire Xétudiée est normale dans les populations considérées (hormis pour la conformité ou la comparaison de moyennes sur de grands échantillons) Cette condition n'étant pas toujours satisfaite on étudie maintenant des tests qui sont alablesv même quand la loi de X n'est pas normale Ce sont des tests de comparaison de moyennes
FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Premieres notions de satistique
Introduction aux tests statistiques
Franck Picard
UMR CNRS-5558, Laboratoire de Biometrie et Biologie Evolutive franck.picard@univ-lyon1.frF. Picard, 1/69
FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
La statistique une science citoyenne?
49/51, la gauche gagne ! quelle conance accordez vous a cette
armation ? Les OGM sont dangereux pour la sante ! c'est s^ur ? La population que j'observe est-elle a l'equilibre d'Hardy Weinberg ? Y-a-t-il une proportion plus elevee de suicide dans mon entreprise que dans la population generale ?La terre se rechaue ?
Fumer tueCOUPABLE OU NON-COUPABLE ?
F. Picard, 2/69
FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Tests et demarche scientique
Apres avoir estime un parametre, que conclure de sa valeur ? Par exemple: la proportion estimee d'electeurs qui ont voteAest b p(x) = 0:45. Que peut-on en dire ? L'estimation consiste on cherche a collecter des informations sur un parametre, et a l'estimer au mieux La demarche des tests consiste acomparerle resultat observe avec une valeur de reference: la proportion d'electeur est-elle superieure ou egale a 50%? Repondre a cette question suppose que l'on prenne en compte la variabilite de l'echantillon.La motivation des tests est la prise de decision a partir de resultats aleatoiresF. Picard, 3/69
FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Une ? Deux ? Plusieurs populations ?
Si on ne dispose que d'une seule population, on compare en general le resultat a une reference:Pour unparametre: 0 (moyenne), 0.5 (proportion)
Pour unedistribution: comparer aux distribution connues: les donnees sont-elles distribuees comme une loi gaussienne ? Lorsque l'on observe deux populations, on cherche souvent a les comparer La moyenne de la taille des lles et des garcons est-elle la m^eme ? La repartition du QI est-elle la m^eme pour les lles et les garcons ? Les modeles lineaires (ANOVA) permettront d'etendre ces demarches au cas de plusieurs populationsF. Picard, 4/69
FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Tester sans modele ?
On enregistre la taille den
individus noteesx1;:::xn. On estime la taille moyenne de l'echantillonavecx= 1:91mOn souhaite determiner si la
taille des individus de la populationest egale a 1:80m en moyenne. Sans modele on peut calculerx1:80 et conclure que la taille de la population d'inter^et est dierente de 1.80m. Mais cette comparaison ne prend pas en compte la variabilite des donnees ( uctuations d'echantillonnage, exemple des arbres).F. Picard, 5/69
FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Le cadre des tests parametriques
La distribution des donnees est
modeliseeen utilisant une loi qui depend d'un parametre (noteeF)Exemple de la taille (on suppose
2connue)Xi N(;2) (iid):
Testparametrique: qui
concerne les parametres du modele.L'hypothese posee concerne
toujours lesparametresdu modele (et pasX)Ici on pose l'hypotheseH0:f= 1:80gF. Picard, 6/69
FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Modele et loi de la statistique-1
On appelle statistique de test
une fonction des observationsx qui permet de tester l'hypothese H 0On la construit pour que sa
distribution sousH0soit connueLa statistique de test est en lien
avec l'estimateur du parametre du modeleIci:T(x) =xouT(x) =x=
(connue) Si on ne dispose pas d'un modele sur les observationsXialors on ne peut pas quantier la variabilite de la statistique de testT(x).F. Picard, 7/69FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Modele et loi de la statistique-2
On pose un modele sur lesXi
(par exempleXi, iid,N(;2))La statistique de testT(x) est
unerealisation deT(X)Etant donne que l'on achoisi
une loi pour lesXion peut en deduire une loi pourT(X) Le modele permet de quantier la variabilite de la statistique de test, par exempleT(X) =XH0N(1:80;2=n)F. Picard, 8/69
FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Modele et loi de la statistique-3
Sous l'hypothese du modele
N(1:80;2), les quantiles de la
loi normales donnent des intervallesprevusde variations deX.Si on prevoit un modele avec
plus de dispersion, il faudra un ecart de moyenne plus important pour detecter une dierence atypique La conclusion d'un test parametrique depend essentiellement du modele pose sur les observationsF. Picard, 9/69
FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Vers le retour des quantiles
Sixest dans les valeurs
\medianes" de la gaussienne alors on pourra dire que la probabilite que la taille de la population soit de 1.80 est forteSixest dans les valeurs
\extr^emes" de la gaussienne alors on pourra dire que la probabilite que la taille de la population soit egale a 1.80 est faible Les quantiles sont utilises pour positionner la valeur observeeT(x) de la statistique par rapport a la distribution attendue deT(X) sousH0F. Picard, 10/69FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Quantiles et Zone de rejet
Six2] 1;q1] alors on
accepteraH0Six2[q1;1[ alors on
rejetteraH0La zone de rejet denit
l'ensemble des valeurs deT(x) pour lesquelles on rejetteH0On noterala part attendue
sousH0des valeurs deT(X) dans la zone de rejetF. Picard, 11/69
FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Regle de decision
La demarche fondamentale
consiste a supposer que l'hypothese nulleH0est verieeLe raisonnement consiste a
s'interroger sur le caractere plausible ou non de l'observation deT(x) sous cette hypotheseLa procedure consiste arejeter
H0quandT(X)depasseun
seuil fRejet deH0g () fT(X)seuilgF. Picard, 12/69FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Pourquoi choisir les quantiles comme seuil ?
Les quantiles permettent de
quantier P0fT(X)q1g
C'est la probabilite sousH0
qu'un echantillon donne une taille qui depasseq1Si on tirait un autre echantillon
et que l'on refaisait une mesure deT(X), on n'aurait que% de \chance" que cette nouvelle mesure depasseq1 P0fT(X)q1gest la masse \residuelle" de distribution deT(X) qu'il
resterait si on rejetaitH0a partir deq1F. Picard, 13/69FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Notion de risque de premiere espece
Le principe des tests est de
prendre une decisionDonc le principe des tests est de
faire des erreursL'avantage des statistiques est
de pouvoir quantier ces erreursSi on choisitq1comme seuil,
alors on a une probabilite de de rejeter alors que l'hypothese est vraie Le risque de premiere espece correspond a la probabilite d'avoir un faux positifF. Picard, 14/69
FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Degre de signicativite
Besoin de calculer les quantiles
de la loi deT(X) sousH0Besoin de recalculer le quantile
si on changeOn cherche alors aquantier le
degre de signicativite de la decisionP0fT(X)tgquantie la
\queue" de distribution de la statistique de test.8t;P0fT(X)tg: c'est le risque pris en rejettantH0a partir detF. Picard, 15/69
FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Denition de la P-valeur
C'est la quantite qui est utilisee
par tous les logiciels pour prendre une decisionLa quantiteP0fT(X)T(x)g
quantie le risque que l'on prend en rejetant l'hypothese avec les donnees observeesxOn la notePv(x), c'est un
risque reel que l'on compare a un risque admissiblePour contr^oler le risquela
regle de Decisionsera: fP0fT(X)T(x)g gon rejetteH0.F. Picard, 16/69FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Deux regles de decision equivalentes
F. Picard, 17/69
FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Resume de la procedure de test
1On recueille des donnees (x1;:::xn)2On modelise les observations (X1;:::;Xn) a l'aide d'un modele de
distributionF3On denit une hypothese nulle a testerH04On denit une statistique de testT(X) pour testerH0et on l'evalue
sur l'echantillonT(x)5On calcule la probabilite de depassement sousH0P0fT(X)T(x)g c'est la p-valeur ou \p-value"6On xe un risque7SifP0fT(X)T(x)g gon rejetteH0F. Picard, 18/69FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Outline
1Un peu de formalisation et de vocabulaire
2Mise en pratique des tests
3Comparaison a une valeur de reference
4Comparaison de moyennes
5Comparaison de proportions et TCL
6Tests d'adequation a une loi
7Tests non parametriques
F. Picard, 19/69
FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Denition de plusieurs hypotheses. L'hypothese nulle On commence par denir l'hypothese nulleH0: c'est l'hypothese que l'on souhaite tester Exemple: on observe 99 votes pour"x"sur 100, est ce que"x" gagne ? On poseraH0:fp= 0:5g Un principe des tests est que l'hypothese nulle correspond a l'absence d'eet (ou de signal). La demarche consiste a accumuler des donnees pour rejeter cette hypothese.H0est l'hypothese a refuter.SousH0on est presume innocent.F. Picard, 20/69FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Denition de plusieurs hypotheses. L'hypothese alternativeC'est l'hypothese \contre"
laquelle on teste l'hypothese nulle.Elle est en general denie par
un/des intervallesSiH1ne concerne qu'une partie
de la distribution deT(X) alors le test est un test uni-lateral.Ex:H1:f >1:80g
SiH1concerne les deux parties
\extr^emes" de la distribution deT(X) alors le test est un test
bi-lateral. Ex:H1:f6= 1:80gF. Picard, 21/69
FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Pourquoi se placer \sous"H0
H0est une hypothese de travail
En supposant qu'elle est
veriee, on sait deriver les caracteristiques deT(X)SousH1au contraire, on ne sait
rien. On sait simplement que le parametre est dierent de la valeur supposee sousH0F. Picard, 22/69
FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Les deux types d'erreur
L'erreur de premiere espece
PfDeciderH1alors queH0est vraieg
L'erreur de deuxieme espece
PfDeciderH0alors queH1est vraieg
La puissance d'un test:
= 1La determination dedepend
de ce qui se passe sousH1 (souvent inaccessible)F. Picard, 23/69
FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
On se trompe toujours ! Choix de l'absurde
Les deux risques sont lies et varient generalement en sens inverse:MAISl'idee de Neyman et Pearson est de supposer queles hypotheses
H0etH1ne jouent pas des r^oles symetriques
En generalH0suppose l'absence d'eetLa strategie consiste a xer un risque tolerable(faux positifs), et
de trouver le test qui maximise la puissanceF. Picard, 24/69FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Du r^ole central de la denition de l'hypothese nulleFixera prioricorrespond auprincipe de precaution
Plusdiminue, plus le test devientconservatif: on aura tendance a conserverH0Cet a priori signie queest le risque maximum que l'on est pr^et a prendre en rejetantH0a tortF. Picard, 25/69FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Outline
1Un peu de formalisation et de vocabulaire
2Mise en pratique des tests
3Comparaison a une valeur de reference
4Comparaison de moyennes
5Comparaison de proportions et TCL
6Tests d'adequation a une loi
7Tests non parametriques
F. Picard, 26/69
FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Les principaux tests a conna^tre
Comparaison d'un parametre(esperance, probabilite de succes, variance) a une valeur de reference (test gaussien, de Student, binomial, et du chi2, test de rang) Comparaison d'une distributionempirique a une distribution theorique de reference (test du chi2, de Kolmogorov-Smirnov) Comparaison dedeux populations(esperances, probabilites de succes, variance), tests gaussiens, de Student, binomial et de Fisher Comparaison dedeux distributions(Kolmogorov, test de rang)Test d'independanceF. Picard, 27/69
FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
...Ou comment s'y retrouver ? La diversite des situations, et l'inventivite des statisticiens creeent une diversite de situations / tests possibles En pratique, la diculte est souvent: \Je fais quoi dans quelle situation" ?En statistique, on raisonne (toujours) en terme d'information disponible: r^ole central du nombre d'observations On aura souvent la contrainte du nombre d'observations disponibles (realite experimentale)Le l directeur du choix utilise un principe simple:Plus on dispose d'information, plus on peut faire des hypotheses
fortesF. Picard, 28/69
FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Hypotheses fortes / faibles pour comparer deux populations La contrainte provient principalement de la disponibilite des donnees Le caractere fort/faible des hypotheses concerne essentiellement la specication du modele SiFspecie une loi particuliere: on fait une hypothese tres fortesur la distribution des donnees et sur sa parametrisation.Dans ce cas, il faut \beaucoup" d'observations, et on se focalise
sur le parametref0=1g Si on a moins d'information, peut-^etre que la distribution des observations ne peut ^etre \contrainte" par unFparticulierDans ce cas, on se focalise \uniquement" sur les distributionsfF0=F1gF. Picard, 29/69FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Outline
1Un peu de formalisation et de vocabulaire
2Mise en pratique des tests
3Comparaison a une valeur de reference
4Comparaison de moyennes
5Comparaison de proportions et TCL
6Tests d'adequation a une loi
7Tests non parametriques
F. Picard, 30/69
FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Est ce qu'on abbat les arbres ou pas ?
L'exploitant de parcelles d'arbres doit decider s'il abbat ou non les arbres d'une parcelle. Au vu d'expertises anterieures, il sait qu'il peut abbattre les arbres quand leur taille est au moins de 25cm. Il recueille donc la taille de11 arbres de la parcelle 1 et 10 arbres de la parcelle 2.Type 1 23.4 24.4 24.6 24.9 25 26.2 26.3 26.8 26.8 26.9 27
Type 2 22.5 22.9 23.74 24.0 24.4 24.5 25.3 26 26.4 26.7 . On considere des echantillons de2 populations independantesde taillen1etn2, notesx1= (x11;:::;x1n1) etx2= (x21;:::;x2n2). On suppose que la variable d'inter^et peut ^etre modelisee par uneloi gaussienne, telle que: X1iiidN(1;2);X2iiidN(2;2); 2connue:F. Picard, 31/69
FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Est ce qu'on abbat les arbres ou pas ?
H0On souhaite tester les hypothesessur le parametre d'esperance
On fait l'hypothese de \pas d'eet" (donc \on n'abbat pas les arbres"): H0:f1<25g;H0:f2<25g;
H1On denit l'alternative:
H1:f125g;H0:f225g
Etant donne que l'hypothese porte sur le parametre d'esperance, on estime les parametres du modele et on calcule la statistique de testT(X) =X25
pn;(suppose connu dans un premier temps)Type Moyenne Ecart-type nb obsT(x)PfT(X)t(x)g1 25.66 1.24 11 1.7653 0.053
2 24.64 1.43 10 -0.7960979 0.222
F. Picard, 32/69
FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Cas unilateral et bilateral
Dans le cas d'une hypothese uni-laterale: on calcule le degre de signicativite du test avec H1:f1> 0g;Pv(T(x)) =P0fT(X)>T(x)g
H1:f1< 0g;Pv(T(x)) =P0fT(X) Dans le cas d'une hypothese bi-laterale:
H 1:f16=0g;Pv(T(x)) =P0fT(X)>jT(x)jg
Les Pvalues se calculent a l'aide des fonctions de repartition des statistiques de test (en utilisant les logiciels) F. Picard, 33/69
FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Outline
1Un peu de formalisation et de vocabulaire
2Mise en pratique des tests
3Comparaison a une valeur de reference
4Comparaison de moyennes
5Comparaison de proportions et TCL
6Tests d'adequation a une loi
7Tests non parametriques
F. Picard, 34/69
FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Le test gaussien de comparaison de moyennes
Obs On consid eredes echantillonsde 2 populations independantesde taillen1etn2, notesx1= (x11;:::;x1n1) etx2= (x21;:::;x2n2). F On suppose que la variable d'inter^et peut ^etre modelisee par uneloi gaussienne, telle que: Xquotesdbs_dbs23.pdfusesText_29
Dans le cas d'une hypothese bi-laterale:
H1:f16=0g;Pv(T(x)) =P0fT(X)>jT(x)jg
Les Pvalues se calculent a l'aide des fonctions de repartition des statistiques de test (en utilisant les logiciels)F. Picard, 33/69
FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Outline
1Un peu de formalisation et de vocabulaire
2Mise en pratique des tests
3Comparaison a une valeur de reference
4Comparaison de moyennes
5Comparaison de proportions et TCL
6Tests d'adequation a une loi
7Tests non parametriques
F. Picard, 34/69
FormalisationPrati queComp. aune ref T estssur mo yennesT estp roportionsT estd'ad equationT estsnon pa rametriques
Le test gaussien de comparaison de moyennes
Obs On consid eredes echantillonsde 2 populations independantesde taillen1etn2, notesx1= (x11;:::;x1n1) etx2= (x21;:::;x2n2). F On suppose que la variable d'inter^et peut ^etre modelisee par uneloi gaussienne, telle que: Xquotesdbs_dbs23.pdfusesText_29[PDF] Guide du déposant - ANR
[PDF] Appel ? projets générique 2017 - ANR
[PDF] - 1 - Sélection de la thématique ou le « Défi de tous les savoirs » - 2
[PDF] Premiers résultats de l 'appel ? projets générique 2017 - ANR
[PDF] Plan d 'action 2018 - ANR
[PDF] Appel ? projets générique - ANR
[PDF] appel a projets generique - ANR
[PDF] Plan d 'action 2017 - ANR
[PDF] rapport annuel - L anrt
[PDF] ANSD-AOÛT 2015
[PDF] Décision du 11/05/2017 portant suspension des essais - Ansm
[PDF] TOEIC Listening and Reading Examinee Handbook - ETS
[PDF] Plaquette ANTAGENE
[PDF] iec