[PDF] LA STATISTIQUE DESCRIPTIVE 1.1 Introduction. 1.2 Les concepts





Previous PDF Next PDF



Statistique Descriptive - Lexique

3 nov. 2011 Une variable statistique est quantitative si ses valeurs sont des nombres sur lesquels des opérations arithmétiques telles que somme moyenne



Mini-Glossaire de Statistique Descriptive - Jean VAILLANT

Mini-Glossaire de Statistique Descriptive - Jean VAILLANT Classes statistiques : Intervalles de valeurs d'une variable statistique. L'ensemble des.



Lexique anglais-français décologie numérique et de statistique

30 janv. 2020 Lexique anglais-français d'écologie numérique et de statistique ... paramètre descriptif statistique descriptive.



Cours de Statistique Descriptive

Une variable statistique est dite : (i) quantitative : lorsqu'elle est mesurée par un nombre (les Notes des Etudiants à l'Examen de Statistique le 



LA STATISTIQUE DESCRIPTIVE 1.1 Introduction. 1.2 Les concepts

1.2 Les concepts et le vocabulaire de base. 1.3 Les échelles de mesure. 1.4 Les tableaux et graphiques. 1.5 Les mesures de tendance centrale. 1.6 Les mesures 



Glossaire.pdf

méthode d'analyse multivariée descriptive qui Méthodes statistiques appliquées au management ... nelle de X toute distribution statistique de X.



Cours 2 : Statistiques descriptives

X ) et la Moyenne harmonique ( X. ~. ) on obtient les résultats suivants. (voir le lexique pour la définition de ces mesures) : Statistique Femme.



1 Statistique vocabulaire

https://www.alloschool.com/assets/documents/course-74/statistique-descriptive-vocabulaire-tableaux-et-graphiques.pdf



Notes de cours Statistique avec le logiciel R

Statistiques descriptives. – Graphiques sous R : personnalisation des Statistique descriptive et première session de R. 2.2 Premiers pas x=c(14



Statistique Descriptive - Lexique

Pour toute population de moyenne et d'écart-type s la proportion de valeurs de l'intervalle [ - k s ; + k s ] est d'au moins égale à 1 - pour tout k 3 1 Par exemple 75 des valeurs au moins appartiennent à : [ - 2 s ; + 2 s ] c'est-à-dire s'écartent de moins de 2 écart-types de la moyenne



I) Vocabulaire de la statistique - LeWebPédagogique

Statistique – Probabilité (I) Statistiques descriptives STAT 1 Compétences Connaître le vocabulaire des statistiques Exemples 1 et 2 Savoir calculer des fréquences des fréquences cumulées Exemples 3 et 4 la méthode en vidéo : ici et ici Savoir représenter graphiquement une série statistique en particulier à l’aide d’un

LA STATISTIQUE DESCRIPTIVE1.1Introduction.1.2Les concepts et le vocabulaire de base.1.3Les échelles de mesure.1.4Les tableaux et graphiques.1.5Les mesures de tendance centrale.1.6Les mesures de position.1.7Les mesures de dispersion.ModuleBio statistiquesNiveauL3

Biostatistique L3

2

La statistique descriptive1.1Introduction.La statistique est une branche des mathématiques qui s"intéresse à l"étudedes phénomènes aléatoires, en contre opposé aux mathématiques déterministesplus familières aux étudiant(e)s, que sont le calcul différentiel, calcul intégral,géométrie, algèbre,...Le mot statistiquedont le nom est dérivé de ``state"" enréférence à tout ce qui est étatique,est relativement nouveau, puisqu"il a étéintroduit en Allemagne au XVIIème siècle. Par contre la pratique de lastatistique est plus ancienne, elle fut utile aux grands empires en Mésopotamie,dans l"Égypte ancienne, ainsi que chez les romains et les empires indiens etchinois. Il s"agissait de bien connaître la population pour administrer sarépartition sur les territoires, collecter les impôts et gérer les aspects militaires.De nos jours, on ne peuttrouver un domaine qui peut être compris, analysé sansles méthodes statistiques.Que ce soit dans le domaine des sciences sociales,sciences de la vie ou sciences de l"ingénieur, les méthodes statistiques sontomniprésentes pour mettre de l"ordre dans le protocole de travail, ellespermettent quand on est devant un chaos apparent des données, de déterminerpar où commencer et quelles sont les étapes à suivre selonlecontexte pouranalyser ces données.La statistique grosso-modo est formée de troisgrandes classes:lastatistique descriptive,la statistique inférentielleet lanouvelle branche qu"est lastatistique exploratrice. Ce chapitre est consacré à la statistique descriptive. Lastatistique descriptivecomme son nom l"indique, se propose de décrire lesdonnées, de les classer et de les présenter sous des formes claires etcompréhensibles. Elle est à la base par exemple de toute organisation dusystème d"information d"une entreprise:statistiques de la production ou desventes, statistiques financières,statistiques des ressources humaines...Elle estaussi une importante composante en sciences humaines de ce qu"on appelle lesméthodes quantitatives. On va commencer par définir le lexique qu"on vautiliser tout le long dece chapitre et même de ce livre.1.2: Les concepts etlevocabulairede base.Au début de tout travail statistique, il faut cerner avec précision sur quoi vaporter l"étude. L"ensemble de tous les éléments sur lesquels porte l"études"appellepopulation.Une population peut être un ensemble d"êtres vivants(humains, oiseaux, poissons, bactéries,...) ouunensemble de choses (maisons,voitures, rivières,...) ouunensemble de faits (pannes, accidents,divorces,...).Chaque élément d"une population s"appelleindividuouunité statistique. Unepopulation peut être finie (population d"un pays) oupresqueinfinie (population

Biostatistique L3

3

des insectes), on considère généralement les populations comme finies mêmes siellessonttrès grandes. Le nombre d"unités statistiques dans une populations"appelletaille de la populationet on le note parN.Quand une étude porte sur toute la population, on dit qu"on fait unrecensement.Mais pour des raisons techniques ou économiques,il n"est généralement paspossible de collecter des données sur tous les éléments d"une population. Alorson se contente d"extraire une partie de la population appeléeéchantillonetrestreindre l"étude à cet échantillon. On verra dans le chapitre V, qu"il existe desméthodes spécifiques permettant de s"assurer que l"échantillon soit représentatifde la population, c'est-à-dire une réplique en miniature de ce qui se passe dans lapopulation. Pour l"instant, on suppose qu"on dispose d"un échantillon sur lequelporte l"étude (sans savoir comment il a été extrait). Le nombre d"éléments dansl"échantillon s"appelletaille de l"échantillonet sera noté parn.On appellevariabletout caractère observé ou mesuré sur chacun des élémentsde l"échantillon.On va réserver les dernières lettres de l"alphabet pour noter lesvariables: X, Y, Z, U...Les différentes valeurs que prend une variable s"appellentmodalités. Afin quele classement d"une unité statistique soit toujours possible sans ambiguïté, lesdifférentes modalités doivent être à la fois incompatibles (un individu ne peutavoir plusieurs modalités à la fois ) e t exhaustiv es (t ous le s cas doi vent êtreprévus).Il existe deux types de variables: Lesvariables qualitativeset lesvariables quantitatives.Une variable est dite qualitative si elle ne peut êtremesurée ou quantifiée, mais peut être classée en catégories comme le sexe, larace, l"espèce, le niveau scolaire,.... Une variable est de type quantitatif si ellepeut être mesurée ou quantifiée, comme lepoids, la hauteur, le revenu, lenombre d"enfants, le nombre de pannes.Les variables qualitatives sont constituées de deux sous-classes:iLes variables qualitativesnominales:ce sont celles dont les modalités nepeuvent qu"être constatées, nommées.Exemple:Le sexe(masculin , féminin), la nationalité(Canadienne,Française, Marocaine,..), les cours suivis durant une session(mathématiques, anglais, philosophie,..)...iLes variables qualitativesordinales. ce sont les variables qualitatives dontles modalités appellent naturellement un ordre dans leur rangement.Exemple:Le niveau scolaire(primaire, secondaire, collégial, universitaire),le comportement lors d"une réception(incongru, correct, parfait,..),...Les variables quantitatives sont elles aussisubdivisées en deux sous-classes:iLes variablesquantitativesdiscrètes:ce sont celles dont les modalités sontdes valeurs isolées.Exemple:Le nombre de pannes, le nombre d"accidents, le nombred"enfants,...

Biostatistique L3

4

iLes variablesquantitativescontinues, ce sont celles dont les modalitésforment un continuum. Ce sont celles qui peuvent prendre n"importe quellevaleur dans un intervalle raisonnable.Exemple:La taille, le poids, le revenu,...1.3Les échelles de mesures.Pour les variables qualitatives, il existe deux échelles de mesure.L"échellenominalequi s"adresse aux variables qualitatives nominales, elle ne sertqu"à coller une étiquette aux unités statistiques, elle nelesclasse pas sur uneéchelle à une dimension.Exemple 1.3.1:iX= sexe, alors X est une variable qualitative nominale et son échelle estnominale.iY=le numéro du dossard d"un joueur de hockey. Même si Y prend desvaleurs numériques, ce n"est qu"une variable nominale et son échelle estnominale. Car on peut tout aussibienmettre des lettressur leur dossard oudes dessins.L"autreéchelle estl"échelleordinaleet s"adresse aux variables qualitativesordinales, on l"appelle comme cela car il y a un ordre entre ses modalités.Exemple 1.3.2:iX= le niveau scolaire d"une personne adulte, alorsses modalités peuventêtre: primaire, secondaire, collégial, universitaire. Il y a un ordrechronologique entre ces modalités.iY= la note finale obtenue dans un cours de statistique, ses modalités seront:F, E,D, C, B, A ou A+. Il y a un ordre de mérite entre ces modalités.Pour les variables quantitatives, il existe aussi deux types d"échelles, lapremière échelle estl"échelle d"intervalle. On l"appelle comme ça car laseule opération possible est la différence. On reconnaît une échelled"intervallepar l"absence du zéro absolu (c'est-à-dire que si X=0, cela neveut pas dire absence de ce qu"on mesure).Exemple 1.3.3:iT= la température en degrés Celsius.Le jour où T=0

, ça ne veut pas direabsence de température. Si on considère deuxjournées où la températureestrespectivement égale à 10 et 30 degrés, ça veut seulement dire qu"ilya unécart de 20 degrés entre ces deux journées. Si on prend deux sots d"eau où latempérature est respectivement égale à 35 et 45 degrés, si on les mélange, onne va pas obtenir une eau chauffée à 80 degrés. Alors l"échelle de cettevariable est une échelle d"intervalle.

Biostatistique L3

5

iX=la date de naissance, si on est en 2010 et qu"on considère une personnenée en 1950 et une autre née en 1980, tout ce qu"on peut direest qu"il y aune différence d"âge de 30 ans entre elles. On ne peut pas dire que l"une estdeux fois plus âgée que l"autre, car l"année prochaine ce ne serait plus vrai.Alors l"échelle de cette variable est une échelle d"intervalle.L"autre échelle estl"échelle de rapports. C"est l"échelle la plus maniable, laplus riche. Elle admet un zéro absolu,c'est-à-diresi la variable est nulle, celasignifie l"absence de ce qu"on mesure. On peut faire toutes les opérationsalgébriques avec une telle échelle.Exemple: 1.3.4:iX=le revenu familialannuel(en dollars), si X=0 cela veut dire qu"il n"yapas eu de revenu. Si on prend deux familles dont le revenu respectif est de30000 et 120000 dollars, on peut dire qu"il y a un écart de 90000 dollarsentre ces deux revenus, on peutaussidire que la deuxième famille gagne 4fois plus que la première. Si on additionne ces deux revenus,on aura unrevenu global de 150000 dollars. Alors l"échelle de cette variable est uneéchelle de rapports.iY=le nombre d"enfantsdans un ménage. Si Y=0 cela veut dire que cettefamille n"a pas d"enfant. On peut faire toutes les opérations algébriques avecles modalités de cette variable, donc son échelle est une échelle de rapports.1.4Les tableaux et graphiques.Dans ce paragraphe on va détailler comment résumer l"information contenuedans une série de données soit par des tableaux ou des graphiques. On vacommencer par les variables qualitatives.1.4.1Cas de variables qualitatives.On va considérer deux exemples où on a des variables qualitatives observées surun échantillon et suivre le traitement possible de ces données.Exemple 1.4.1.1:On a pris un échantillon de 50 achats de boissons non-alcoolisées achetées dans une grande surface,en notant par:CC=Coca-Cola; S=Sprite; CL=Coke-Light; P=Perrier; PC=Pepsi-Cola.On a obtenu les résultats suivants.CC S PCCL CC CC PC CL CC CL CC CC CC CL PC CCCC P P S CC CL PC CL PC CC PC PC CC PC CC CC PCP PC PC S CC CC CC S P CL P PC CC PC S CC CLAlors ici lavariable est X=Boisson non-alcoolisée, qui est une variablequalitative nominale. Pour présenter ces données sous forme de tableau, ondresse un tableau, dans la première colonne on énumère les cinq modalités de la

Biostatistique L3

6

variable, dans la seconde colonne on donne la fréquence absolueou l"effectifde chacune des modalités(c'est-à-dire le nombre de fois que cette modalité serépète dans l"échantillon) et dans la troisième colonne,on donnela fréquencerelativede chacune des modalités. Lafréquence relatived"une modalité étantégale à sa fréquence absolue divisée par la taille de l"échantillon. Ce qui donne:Tableau des fréquences des boissons non-alcooliséesX=BoissonFréquences absoluesFréquences relativesCC190,38CL80,16PC130,26P50,10S50,10Totaln=501Source: données fictives.Ce tableau s"appelletableau de fréquencesde la variable.Remarque:Pour une présentation complète des tableaux et graphiques, on doitmettre le titre en haut et la source des donnéesen bas.En ce qui concerne la représentation graphique, on va donner deux graphiquesqui résument la même information contenue dans le tableau des fréquences.iLe diagramme à barres (horizontales ou verticales).Où on met sur un axe lesmodalités de la variable et sur l"autre axe les fréquences absolues ou lesfréquences relatives.

CCCLPCPSBoissons05101520Fréquences

Répartition des ventes des boissons non alcoolisées selon la marque

Biostatistique L3

7

Remarque:Les largeurs des barres doivent être les mêmes pour une belleesthétique du graphique, ainsi que la distance entre les bandes. On peut aussiajouter les fréquencesabsolues au dessus des bandes.iLe deuxième graphique qu"on peut faire estle diagramme àsecteurs(o u circulaire)qui est une sorte de tarte où chaquemodalité occupe une partie qui reflète sa fréquencerelative.

CCCL PCPS

Exemple 1.4.1.2:Lors d"une enquête de satisfaction de la clientèle, unecompagnie de courtage a demandé à un échantillon de 60 clients d"indiquer leurdegré de satisfaction vis-à-vis de leur conseiller financier, sur une échelle de 1 à7,le1 correspondantà <> et le7 correspondantà <>. On a obtenu les résultats suivants:5 7 6 6 7 5 5 7 3 6 7 7 6 6 6 5 5 6 7 76 6 4 4 76 76 7 6 5 7 5 7 6 4 7 5 7 66 5 3 7 7 6 6 6 6 5 5 6 6 7 7 56 6 6 6

Diagramme circulaire donnant la répartition des boissons non alcooliséesselon la marque

Biostatistique L3

8

Icila variable,``degré de satisfaction``est une variable qualitative ordinale. Onpeut résumer l"information contenue dans ces données sous forme d"un tableaude fréquences ce qui donne:Tableau des fréquences du degré de satisfaction des clients.Degré de satisfactionFréquences absoluesFréquences relatives100,0000200,0000320,0333430,05005120,20006250,41677180,3000Totaln=601,0000Source: Données fictives.En ce qui concerne la représentation graphique, les mêmes graphiques qu"on autilisés pour une variablequalitative nominale font l"affaire. Ce qui donne:

0510152025freq.absolues1234567

1.4.2 Cas de variables quantitatives.Le traitement des variables quantitatives discrètes étant différentde celui desvariables quantitatives continues, on va donc réserver un sous paragraphe àchacune d"elles.

Degrédesatisfaction

Répartition du degré de satisfaction des clients Diagramme circulaire, donnant la répartition du degré de satisfaction des clients.

Biostatistique L3

9

1.4.2.1: Cas des variables quantitatives discrètes.Soit X une variable quantitative discrète dont le nombre de modalitésn"est pas trop grand. Alors on peut dresser un tableau des fréquences commecelui utilisé pour les variables qualitativesauquel on peut ajouter une colonnesupplémentaire où on met les fréquences relatives cumulées au fur et à mesurequ"on ajoute une modalité de la variable. En ce qui concerne la représentationgraphique,un seul graphiques"associe avec les variables quantitativesdiscrètes:le diagrammeà bâtons.Exemple 1.4.2.1.1:Un inspecteur en contrôle de qualité a extrait de sa base dedonnées, un échantillon de 40 semaines où il a noté X, le nombre d"accidents detravail enregistrés par semaine. Il a obtenu les résultats suivants:20 4 2 2 1 3 2 0 5 4 3 2 4 5 6 6 4 2 034 4 2 6 2 4 3 0 4 3 4 3 3 5 5 4 2 2 1On peut donc dresser le tableau des fréquences suivant.Tableau des fréquences du nombre d"accidents par semaineLe nombre d"accidentspar semaine.FréquencesabsoluesFréquencesrelativesFréquences relativescumulées040,1000,100120,0500,1502100,2500,400370,1750,5754100,2500,825540,1000,925630,0751,000Totaln=401,000Quant au diagramme à bâtons, on obtient quelque chose comme:

Biostatistique L3

10

6543210X

Remarque:Les bâtons ne doivent pas avoir d"épaisseur, car la variable prendexactement les valeurs 0, 1, 2,...On peut ajouter les effectifs ou les fréquencesrelatives sur les bâtons.1.4.2.2: Cas de variables quantitatives continues.Considérons maintenant un échantillon de données provenant d"unevariable quantitative continue ou discrèteavec un grand nombre de modalités. Ilest donc inconcevable de dresser un tableau où on énumère les modalités d"unetelle variable, il serait non analysable. Il faut donc grouper cesdonnées enclasses de valeurs.Deux questions se posent alors:iCombien de classes faut-il former?iQuelles seront les largeurs de chacune des classes?La réponse à la première question, dépend de la taille de l"échantillon, le nombrede classe à former est donné par la formule de Sturges suivante:

. Ainsi,par exemple,si n=150, ilfaut former

(o n arrondi t à l"entierimmédiatement supérieur). Une fois qu"on sait combien de classes à former. Onessaie de former des classes de même amplitude (largeur) et cette amplitude seraégale à

Répartition du nombre d"accidents par semaine.

Le nombre d"accidents par semaine

Biostatistique L3

11

On arrondit cette amplitude selon les données pour avoir des bornes de classesfacilesà manipuler.Exemple 1.4.2.2.1:Soit X, les recettes quotidiennes(e n dollars)d"un petitmagasin. On a sélectionné un échantillon de taille n=40 jours auhasard qui ontdonné les résultats suivants:16,0058,5068,2078,0079,45142,20145,3186,70209,05216,75219,70 247,75 249,10 256,00 257,15 262,35 268,60 269,60270,15284,45319,00332,00 343,29 350,75 354,90 372,60 383,20 389,20404,55420,20428,50 432,40 444,60 446,80 456,10 458,10 493,95 511,95521,05 621,35Le nombre de classe à former est

d"amplitude chacune égale à

. Cette amplitude estarrondie à 90. Ce qui donneletableau des fréquences suivant, où les classes sontdes intervalles fermés à gauche et ouverts à droite sauf le dernier qui est unintervalle fermé des deux côtés.

Quand aux graphiques, on va ici préviligier troisgraphiques pour les variablesquantitatives continues.iL"histogramme, qui est une suite de rectangles juxtaposés les uns auxautres dressés au-dessus de chacune des classes, dont la largeur est égale àl"amplitudede la classe (prise comme unité de mesure) et dont la surfacereflète la fréquence relative de la classe qu"il représente.

X=lesrecettesFréquencesabsoluesFréquencesrelativesFréquences relativescumulées[10; 100[50,1250,125[100;190[30,0750,200[190;280[110,2750,475[280;370[60,1500,625[370;460[110,2750,900[460;550[30,0750,975[550;640]10,0251,000Totaln=401,000

Répartition des 40 semaines selonles recettes hebdomadaires du dépanneur

Biostatistique L3

12

iLe polygone des fréquences, qui consiste à joindre le milieux des sommets desrectanglesd"un histogrammepar une ligne en zig-zag et cetteligneseferme enajoutant aux deux extrémités deux classes fictives de même amplitude que lesautres, comme ça la surface délimitée par l"histogramme est identique à celledélimitée par le polygone des fréquences. Le polygone de fréquences est trèsutile quand on veut comparer le comportement de la même variable mesurée surplusieurs groupes (o n peu t pen ser à com parer le reven u de s homm es et desfemmes) ou la même variable mesuréesur le même échantillonà différentsinstants(on peut comparer le poids du même groupeà différents moments d"unediète).

iLa courbe des fréquences cumulées (Ogive).Comme sonnoml"indique, elle consiste à tracer le graphique des fréquencescumulées, en mettant les limites des classes sur l"axe horizontal et les fréquences

FréquencesrelativesHistogramme donnant la répartition des 40 semaines en fonction des recettes hebdomadaires

Polygone des fréquences donnant la répartition des 40 semaines selon les recettes hebdomadaires.

Biostatistique L3

13

cumulées sur l"axe vertical, ces dernières se cumulant à la fin de chacune desclasses. Ce graphique aura l"allure d"une courbe croissante variant entre 0 et 1.

100300500700Recettes0.00.20.40.60.81.0freq.cumul.esRemarque:Lorsque les classes ne sont pas de même amplitude, il faut serappeler que la surface du rectangle d"un histogramme étant égale à sa fréquencerelative à la classe associée à ce rectangle, alors si la largeur de cette classeparexemple est le double de la l"amplitude de base, la hauteur du rectangle doit êtredivisée par deux.1.5: Les mesures de tendance centraleOn appelle mesures de tendance centrale, des valeurs de la variable susceptiblesde nous donner une idée sur la donnée qui occupe le centre d"une sériestatistique. On va décrire dans ce paragraphe, les trois plus importantes mesuresde tendance centraleque sontle mode, la moyenne et la médiane.1.5.1.1: Le modeOn appelle le mode d"une variable X, la valeur de la variable qui ala plusgrande fréquence et on le note Mo(X). Le mode est une importante mesure detendance centralepour les variables qualitatives nominales.Remarque:Une distribution peut avoir un seul mode et on dit qu"elle estunimodale, ou plusieurs modes et on dit qu"elle est multimodale.Exemple 1.5.1.1.1:Si on reprend l"exemple des boissons non-alcoolisées, onavait le tableau des fréquences suivant:Tableau des fréquences des boissons non-alcooliséesX=BoissonFréquences absoluesFréquences relativesCC190,38CL80,16PC130,26P50,10S50,10Totaln=501

Ogive de la répartition des 40 semaines selon les recetteshebdomadaires

Biostatistique L3

14

Alors,le mode de cette variableest Mo(X)=Coca-Cola (CC), cela signifie quedans cetéchantillon, la boisson la plus fréquemment achetée est Coca-Cola.Exemple 1.5.1.1.2:En reprenant l"exemple des recettes quotidiennes d"un petitmagasin, où la variable est quantitative continue avecdes données groupèes enclasses, on avait le tableau des fréquences suivant:X=les recettesFréquences absoluesFréquences relatives[10; 100[50,125[100;190[30,075[190;280[110,275[280;370[60,150[370;460[110,275[460;550[30,075[550;640]10,025Totaln=401,000Ici, on voit qu"il y a deux classes qui ont les plus hautes fréquences, on lesappelle des classes modales. Alors on est en présence d"une distribution dedonnées bimodale, et les deux modes sont les milieux des deux classes modales,à savoir Mo(X)=235 etMo(X)=415. Cela veut dire que dans cet échantillon lesrecettes quotodiennes les plus fréquentes sont soit de 235$ ou de 415$. Il y a desauteurs qui font des interpolations à l"intérieur des classes modales pour trouverle mode, on estime que c"est un effort inutile, vue que dans le cas d"une variablequantitative le mode joue un rôle très marginal.On voit que le mode d"unevariable est une mesure de tendance centrale facile à déterminer et s"applique àtous les types de variables, mais sa portée comme mesure d"analyse est trèslimitée.1.5.2: La moyenne.La moyenne arithmétique ou simplement la moyenne est la mesure de tendancecentrale la plus connue. Elle ne s"applique qu"aux variables quantitatives. On vadécrire la méthode pourcalculer la moyenne d"une variable quantitative selonque les données sont en vrac, groupées par valeurs ou groupées par classes.1.5.2.1: Les données en vrac.Soit X une variable quantitative dont les valeurs observées sur un échantillonforment une série en vrac

alors la moyenne de cet échantillon est

Biostatistique L3

15

Exemple 1.5.2.1.1: Un commerçant a l"habitude de noter dans son registre lenombre de clients qui se présentent quotidiennement à son magasin. On a pris unéchantillon de taille 10 de ce registre et on trouvé les valeurs suivantes:120 105 90 201 196 65 88 163 103 116Alors danscet échantillonle nombre moyendes clients qui se présentent àce magasin par jour est donné par la formule suivante:

clients par jour.1.5.2.2: Les données groupées par valeurs.Soit X une variable quantitative discrètedont lesdonnées se présentent sousforme d"un tableau où elles sont classées par valeurs, supposons que la taille del"échantillon est n et qu"il y a k valeurs différentes pour cette variable. Alors lamoyenne d"un tel échantillon de données est:

Exemple 1.5.2.2.1:Reprenons les données de l"exemple 1.4.2.1.1, où X est lenombre d"accidents de travail par semaine. On avait le tableau de donnéessuivant:

Alors la moyenne de cet échantillon est égale à

accidents par semaine.1.5.2.3: Lesdonnées groupées par classes.Supposons qu"on est devant un tableau où les données provenant d"unéchantillon sont groupées par classes. Alors pour calculerla moyenne de cetéchantillon, on va utiliser une formule approximative, où chaque classe estassimilée à son centre et on utilise la même formule que pour le cas où lesdonnées sont groupées par valeurs. Si on note par

,le milieu de la ième classe

Tableau des fréquences du nombre d"accidents par semaineXFréquences absolues0412210374105463Totaln=40

Biostatistique L3

16

et qu"on suppose que la taille de l"échantillon est n et qu"il y a k classes, alors lamoyenne de l"échantillon est:

Exemple 1.5.2.3.1:En reprenantl"exemple 1.4.2.2.1 où X est la recettequotidienne d"un petit magasin, on avait le tableau suivant auquel on a ajoutéune colonneà gauche contenant le milieu des classes:

Alors la moyenne de cet échantillon est:

1.5.2.4:Les propriétés d"une moyenne échantillonnale.Soit X une variable quantitative dont la moyenne échantillonnale est

et soit Yune autre variable quantitative transformée linéaire de X, c'est-à-direque

où a et b sont des constantes réelles. Alors la moyenneéchantillonnale de Y sera égale à

On dit que la moyenne conserve la transformation linéaire entre les variables.Exemple 1.5.2.4.1:Soit X, le nombre d"heures qu"un étudiant travaille à tempspartiel par semaine. Supposons qu"à partir d"un échantillon d"étudiants,on a putrouverqu"en moyenne le nombre d"heures travaillées par ces étudiants est égaleà

heures/semaine. Si le salaire horaire est de 10$ et que les patrons deces étudiants leur offrent 30$ par semaine pour leurs déplacements, quel est legain net moyen hebdomadaire de ces étudiants? Posons Y, le gain nethebdomadaire de ces étudiants alors

, donc le gain moyenhebdomadaire de cet échantillon d"étudiants est égal à

X=les recettesFréquences absolues55[10; 100[5145[100;190[3235[190;280[11325[280;370[6415[370;460[11505[460;550[3595[550;640]1Totaln=40

Biostatistique L3

17

1.5.3: La médiane.Lamédiane est la valeur de la variable qui divise l"échantillon en deux groupesd"égal effectif. Il y a 50% des données qui sont inférieures ou égales à lamédiane et 50% des données qui sont supérieures ou égales à la médiane. Lamédiane se calcule pour des variables qualitatives ordinales et pour des variablesquantitatives. On note la médiane d"une variable X par Med(X) ou par

. Dansce qui suit on va décrire les façons de calculer une médiane dans les différentscas possibles.1.5.3.1: Cas d"une variable qualitative ordinale.Puisque les modalités d"une telle variable sont déjà ordonnées par nature, alorspour déterminer la médiane, on calcule

, et donc Où signifie, l"observation occupant le rang immédiatement supérieur à

Exemple 1.5.3.1.1:Reprenons les données de l"exemple 1.4.1.2, où X est ledegré de satisfaction de la clientèle, on avait le tableau suivant:Tableau des fréquences du degré de satisfaction des clients.Degré de satisfactionFréquences absolues10203243512625718Totaln=60Ici, n=60 et

, alors

. Le degré de satisfaction médian de laclientèle est égal à 6.Ce qui veut dire que dans cet échantillon 50% des clientsont un degré desatisfaction de 6 ou moins et l"autre 50% un degré desatisfaction de 6 ou plus.1.5.3.2:Cas de données quantitatives en vrac ou groupées par valeurs.On doit d"abordordonner les données par ordre croissant avant d"appliquer lamême procédure que pour les variables qualitatives ordinales. Ci-après nousdonneronsun exemple pour chacun de ces deux cas.

Biostatistique L3

18

Exemple 1.5.3.2.1:Reprenonslesdonnées de l"exemple 1.5.2.1.1où la variableest le nombre de clients qui se présentent quotidiennement au magasin.On avaitdes données en vrac:120 105 90 201 196 65 88 163 103 116En les ordonnant, on aura: 65 88 90 103 105 116 120 163 196 201.Ici, n=10 et

, alors

.Ce qui veut dire qu"à partirde cetéchantillon, onpeut affirmerquedans50% des journées,ce magasin reçoit 110clients ou moinspar jouretdans l"autre50% des journées, il reçoit 110 clientsou plus.Exemple 1.5.3.2.2: :Reprenons les données de l"exemple 1.4.2.1.1, où X est lenombre d"accidentsde travail par semaine. On avait le tableau de données où lesmodalités de la variable sont groupées par valeurs, qu"on va changer un peu enajoutant une donnée supplémentaire:

Ici, n=41 et

, alors

.C"est-à-dire que dans cet échantillon,dans50% des semaines,on observe 3accidents ou moinspar semaineet l"autre 50% des semaines,on observe 3accidents ou pluspar semaine.1.5.3.3: Cas de données groupées par classes.Dans le cas où on dispose d"un tableau de fréquences complet (incluant lesfréquences cumulées ) d es donné es group ées p ar classes . Il fau t d"aborddéterminer la classe médiane, qui est la classe où les fréquences cumuléesdépassent pour la première fois 50%. Cette classe aura la forme:

Tableau des fréquences du nombre d"accidents par semaineNombre d"accidents par semaineFréquences absolues0412210374105464Totaln=41

Biostatistique L3

19

, alors on obtient la médiane par interpolation à l"intérieur decette classe médiane et on obtient la formule suivante:

Exemple 1.5.3.3.1:En reprenant les données où X donne la recette quodienned"un petit magasin, on retrouvele tableau des fréquences suivant:X=lesrecettesFréquencesabsoluesFréquencesrelativesFréquences relativescumulées[10; 100[50,1250,125[100;190[30,0750,200[190;280[110,2750,475[280;370[60,1500,625[370;460[110,2750,900[460;550[30,0750,975[550;640]10,0251,000Totaln=401,000Alors ici, la classemédiane est

=[280;370[ ce qui donne une médiane égale à:

Ce qui veut dire qu"en se basant sur cet échantillon de données, 50% des recettesquotidiennes de ce petit magasin sont inférieures ou égales à 295$ et les autres50% sont supérieures ou égales à 295$.Remarque1:Le calcul de la médiane est basé sur l"ordre des observations etnon sur leur valeur. Contrairement à la moyenne, la médiane est insensible auxdonnées extrêmes. Dans le cas où les données sont très différentes, la médianeest une meilleure mesure de tendance centrale.Remarque 2:Si pour une variable X quantitative les 3 mesures de tendancecentrale sont presque égales, on dit alors que la variable est symétrique et alorsn"importe laquelle de ces mesures peut être utilisée comme mesurede cette

Biostatistique L3

20

tendance centrale. S"il y a un grand écart entre ces mesures alors c"est lamédiane qu"on doit priviligier.1.6: Les mesures de position.On a déjà parlé de la médiane comme mesure de tendance centrale, mais elle estaussi une mesure de position car elle permet de diviser une série d"observationsen deux groupes chacun contenant 50% de données. On va définir d"autresmesures de position qui permettent d"autres découpages d"une séried"observations.1.6.1: Les quartiles. Lorsqu"on veut diviser les données en quatres groupes,chacun contenant 25% des observations, on utilise des mesures appeléesquartiles.

=le 1erquartile, à sa gauche il ya 25% des observations, qu"on note =le 2èmequartile, coincide avec la médiane, qu"on note =le 3èmequartile, à sa gauche il y a 75% des observations, qu"on note

On va décrire la façon deles calculer, dans les 3 cas possibles pour une variablequantitative.1.6.1.1: Les données en vrac. On suit les étapes suivantes.Étape1: On ordonne les données par ordre croissant.Étape2: On calcule l"indice

où i estle pourcentagecorrespondant à la mesure voulue et n estle nombre d"observations.Étape3: (a) si

n"est pas un entier, alors le ième quartile est égal à l"observationoccupant la position immédiatement supérieure à

.(b) si estun entier, alors le ième quartile est la moyenne des observationsoccupant les positions et

Exemple 1.6.1.1.1: n=12 et les observations sont:-2-3 10 12 120 11 4 8 6 13 130 200.Étape 1:-3-2 4 6 8 10 111213120 130 200.Étape 2: Si on veut déterminer

, on calcule .Si on veut déterminer , on calcule .Si on veut déterminer , on calcule .Étape 3: Puisque est un entier alors

Puisque

est un entier alors

Puisque

est un entier alors

Exemple 1.6.1.1.2: n=10 et les observations sont:310 12 8 6 100 15 6 3 14.Étape 1: 3 3 6 6 810 12 14 15 100

Biostatistique L3

21

Étape 2: Si on veut déterminer

, on calcule .Si on veut déterminer , on calcule .Si on veut déterminer , on calcule .Étape 3: Puisque n"est pas un entier alors

Puisque

est un entier alors

Puisque

n"est pas un entier alors

Remarque:La procédure décrite pour trouver les quartiles est une conventionparmi d"autres. Il n"y apas d"accord général sur la méthode à utiliser pourdéterminer les quartiles. Si vous utilisezdes logiciels, les valeurs trouvéesdiffèrent d"un logiciel à l"autre. Par exemple, si on prend la série en vracsuivantes: 1 3 6 10 15 21 28 36,alorsla calculatrice TI-83 et plus etleslogiciels suivants donnent:logiciel

SPSS3,7512,526,25SAS4,512,524,5STATDISK4,512,524,5Excel5,2512,522,75R5,2512,522,75Splus5,2512,522,75Minitab3,7512,526,25TI-83 et plus4,512,524,5Heureusement,dans la pratique,les échantillons sont très grands et cesfluctuations ne changent pas grand-chose dans les analyses des données.1.6.1.2: Les données groupées par valeurs.On suit la même démarche que dans le cas des données en vrac, sauf l"étape 1qui devient inutile, puisque les données sont en général déjà ordonnées par ordrecroissant.Exemple 1.6.1.2.1:En reprenant le tableau de l"exemple 1.5.3.2.2,déterminer les 3 quartiles de la variable X=le nombre d"accidentspar semaine.Tableau des fréquences du nombre d"accidents par semaineXFréquences absolues0412210374105464Totaln=41

Biostatistique L3

22

Réponse:Étape 2: Si on veut déterminer

, on calcule .Si on veut déterminer , on calcule .Si on veut déterminer , on calcule .Étape 3: Puisque n"est pas un entier alors

Puisque

n"est pas un entier alors

Puisque

n"est pas un entier alors

signifie que dans cet échantillon,durant25% des semaines,on aobservé 2 accidents par semaine ou moins.

signifie que dans cet échantillon,durant50% des semaines,on a observé3 accidents par semaine ou moins.

signifie que dans cet échantillon,durant75% des semaines,on a observé4 accidents par semaine ou moins.1.6.1.3: Les données groupées par classes.On suit la même démarche utiliséepour calculer la médiane quand les donnéessont groupées par classes. On détermine la classe où on a dépassé le pourcentagerelatif àchaque quartile et on fait une interpolation à l"intérieurde cette classe.On aboutit à la même formule que celle de la médiane où seul le poucentageestà adapter.Exemple 1.6.1.3.1:En reprenant les données de l"exemple 1.5.3.3.1, déterminerles 3 quartiles de la variableX,soitles recettes quotidiennes d"unpetitdépanneur, et interpréterces mesures.X=les recettesFréquencesabsoluesFréquencesrelativesFréquences relativescumulées[10; 100[50,1250,125[100;190[30,0750,200[190;280[110,2750,475[280;370[60,1500,625[370;460[110,2750,900[460;550[30,0750,975[550;640]10,0251,000Totaln=401,000Réponse:(a)Pour déterminer le premier quartile, les fréquences relatives cumulées ontdépassé 25% pour la première fois au niveau de la classe [190; 280[, donc

. Ce qui signifie que dans cetéchantillon de données, 25% des journées, les recettesquotidiennes de cepetit magasin ont été de 206,36$ ou moins.

Biostatistique L3

23

(b)Pour déterminer le deuxième quartile (on refait ce qu"on a déjà fait pourcalculer la médiane) , l es fréquen ces relative s cumul ées on t dépas sé 50%pour la première fois au niveau de la classe [280;370[, donc

Ce qui signifie que dans cetéchantillon de données, 50% des journées, les recettesquotidiennes de cepetit magasin ont été de 295$ ou moins.(c)Pour déterminer le troisième quartile, les fréquences relatives cumulées ontdépassé75% pour la première fois au niveau de la classe [370; 460[, donc

. Ce qui signifie que dans cetéchantillon de données, 75% des journées, les recettesquotidiennes de cepetit magasin ont été de 410,91$ ou moins.Utilité des quartiles.Lesquartiles,en plus de leur utilisation comme mesuresde position, s"utilisent pour détecter des données aberrantes dans toute série dedonnées. Cette détection se fait à l"aide d"un graphique, appelé graphique enboîte (box-plot) ou hamac ou diagramme à moustache selon les auteurs.Sonprincipe consiste à calculer les quartiles de la série et deux limites acceptables.Soient une limite inférieure

et une limitesupérieure

. Toute observation qui ne se trouve pasentre ces deux limites est jugée aberrante et doit être exclue de la sérieavanttoute analyse des données (on essaye de faire une interprétation de la présencedes données aberrantes éventuelles en fin d"analyse).Exemple 1.6.1.3.2:Soit la série des données déjà ordonnée suivante:8 12 20 27 30 32 35 36 40 40 40 40 41 42 45 47 50 52 61 89 101.(n=21 observations). Déterminer s"il y a des données aberrantes dans cette sérieà l"aide d"un graphique en boîte (box-plot).Réponse:Les différentes mesures de cette variable sontobtenues à l"aide dulogicielMinitab:Variable N N* Mean SE Mean StDev Minimum Q1 Median Q3 MaximumC2 21 0 42.29 4.72 21.63 8.00 31.00 40.00 48.50 101.00Ce qui signifie que

et donc et

.Donc,il y a 2données aberrantes dans cette série ce sont89 et 101(qui sontsignalées par *), ce qui est illustré dans le diagramme en boîte ci-dessous.

Biostatistique L3

24
100
80
60
40
20 0 C2

DiagrammeHamacdesobservations

Remarque:Une donnée abérrante peut avoir un effet catastophique sur lamoyenne, sur l"écart type et même sur l"allure générale de la distribution desdonnées.1.6.2. Les autres de position.Quelques fois,on doit découper une série d"observationsen cinq, en dix ou encents groupes contenant chacun le même pourcentage d"observations. Dans lecas de cinq groupes, on parle alors des quintiles

. Entre deuxquintilesconsécutifs, il y a 20% d"observations. Dans le cas de dix groupes, onparle des déciles

et entre deuxdécilesconsécutifs, il y a 10%d"observations. Dans le cas de centgroupes, on parle des centiles

etentre deux centiles consécutifs,il y a 1% des observations.Le calcul de cesdifférentes mesures de position est identique à ce qu"on a fait pour déterminerles quartiles, il n"y a que le pourcentage de la mesure à adapter à chaque fois.Onva donnerun exemple dans le cas où les données sont groupées par classes.Exemple 1.6.2.1:En reprenant les données de l"exemple1.6.1.3.1, déterminerle deuxième quintile, le septièmedécile et le quatre vingt quinzièmecentile de lavariable X, les recettes quotidiennes d"un petit dépanneuret interprétez chacunede ces mesures.

Biostatistique L3

25

Réponse:(a)Les fréquences cumulées dépassent pour la première fois 40% au niveaude la classe [190;280[ ainsile deuxième quintile est égal à

. Ceci signifie que dans cetéchantillonde données, 40% des journées, les recettesquotidiennes de cepetit magasin ont été de255,45 $ou moins.(b)Les fréquencesrelatives cumulées dépassent pour la première fois 70%au niveau de la classe [370; 460[, ainsile septième décile est égal à

. Ce qui signifie que dans cetéchantillon de données, 70% desjournées, les recettesquotidiennes de cepetit magasin ont été de 394,55$ ou moins.(c)Les fréquencesrelatives cumulées dépassent pour la première fois 95% auniveau de la classe [460; 550[, ainsilequatre vingt quizièmecentile estégal à

. Ce qui signifie que dans cetéchantillon de données, 95% des journées, les recettesquotidiennes de cepetit magasin ont été de 520$ ou moins.1.7: Les mesures de dispersion.Rappelons qu"on travaille sur des données issues d"un échantillon et que lechoix de cet échantillon est fait au hasard mais sensé refléter ce qui se passedans la population. Ce qui fait que le comportement d"une variable diffère d"unéchantillon à l"autre mais on espère qu"il correspondau profil de cette variabledans la population. Ce qui fait que lorsqu"on manipule une variable mesurable etqu"on se base seulement sur ses mesures de tendance centrale, on perd de vue lavariabilité des données autour de ces mesures centrales. D"où l"utilité desmesures de dispersion qui,jumulées avec les mesures de tendance centrale,vontnous donner une idée plus exacte sur l"ensemble de ce qu"on a observé dans unesérie échantillonnale. Dans ce paragraphe,on va décrire quelquesunes de cesmesures de dispersion.

X=lesrecettesFréquencesabsoluesFréquencesrelativesFréquences relativescumulées[10; 100[50,1250,125[100;190[30,0750,200[190;280[110,2750,475[280;370[60,1500,625[370;460[110,2750,900[460;550[30,0750,975[550;640]10,0251,000Totaln=401,000

Biostatistique L3

26

1.7.1: L"étendue.C"estla mesure de dispersion la plus simple à calculer. Lorsqu"on a une variablequantitative X, mesurée sur un échantillon de taille n. Alors l"étendue est égale à

.Puisque l"étendue est basée seulement sur les deux observations extrêmes, alorselle est très peu utilisée dans les applications.1.7.2: La variance.La variance d"une variable mesurée sur un échantillon est égale à la moyennedes carrés des écarts qui séparent chaque observation de la moyenneéchantillonnale, son calcul diffère selon la naturedes données.1.7.2.1: Les données en vrac.Soit X une variable quantitative mesurée sur un échantillon de taille n, et dontles valeurs sont:

alors la variance de l"échantillon est

La sommationci-dessus est divisée par (n-1)pour que cette varianceéchantillonnale soit une bonne estimation de la variance de toute la population.Ce qu"on verra plus en détails dans le chapitre VI. La variance se prête mal àl"interpétation car vue son calcul, son unité est égale au carré de l"unité de lavariable X. Si par exemple X est égal au nombre d"enfants par ménage alorsl"unité de la variance serait

qui n"a aucune signification.La variance est surtout utile lorsqu"on a une variable mesurée dans plusieursgroupes (analysede la variance) ou dans le cas où on veutcomparer plusieuresvariables mesurées sur le même échantillon ou comme étape de calcul pourcalculer d"autres mesures.Exemple 1.7.2.1.1:Soit X une variable quantitative mesurée surun échantillonde taille n=6etles valeurs suivantesont été obtenues:-2 5 10 7 8 8Alors

et la variance de cet échantillon sera égale à

1.7.2.2 Les données groupées par valeurs.Soit X une variable quantitative mesurée sur un échantillon de taille n, et dontles k valeurs sont:

avec des fréquences absolues respectivementégales à . Alors la variance de Xdans cet échantillonest égale à

Biostatistique L3

27

Exemple 1.7.2.2.1:En reprenant le tableau de l"exemple 1.5.2.2.1,déterminer la variance de la variable X=le nombre d"accidents par semaine.

Réponse:On avait trouvé que la moyenne de cette variableest doncsa variancesera égale à:

1.7.2.3: Les données groupées par classes.Soit maintenant X, une variable quantitative mesurée sur un échantillon de taillen, et dont les observations sont groupées en k classes avec des fréquencesabsolues respectivement égales à

et dont les milieux des classessont respectivement égaux à . Alors la variance échantillonnalede cette variable est:

Exemple 1.7.2.3.1: En reprenant les données de l"exemple 1.5.2.3.1, déterminerla variancede la variable X, les recettes quotidiennes d"un petit dépanneur.Réponse: On avait trouvé que la moyenne de la variable est

298$

X=les recettesFréquences absolues55[10; 100[5145[100;190[3235[190;280[11325[280;370[6415[370;460[11505[460;550[3595[550;640]1Totaln=40Alorsla variance de cet échantillon estégale à:

Tableau des fréquences du nombre d"accidents par semaineXFréquences absolues0412210374105463Totaln=40

Biostatistique L3

28

1.7.3: L"écart type.L"écart type d"une variable quantitative mesurée sur un échantillon est égal à laracine carrée de sa variance. Son unité de mesure étant la même que celle de lavariable, l"écart type se prêtealorsaisément à l"interprétation et est considérécomme la mesure de dispersion par excellence. La variance n"est donc qu"uneétape de calcul pour déterminerl"écart type, quand on faisait les calculs à lamain. Maintenant que tout est programmé, aucune calculatrice et aucunlogicielne parle de variance comme telle.Exemple 1.7.3.1: L"écart type échantillonnal pour les 3 précédents exemples oùon a calculé les variances échantillonnales estrespectivement égal à:

Pour les données de l"exemple 1.7.2.1.1 où les données sonten vrac. . Pour les données de l"exemple 1.7.2.2.1 où les donnéessont en groupées par valeurs.

. Pour les données de l"exemple 1.7.2.3.1 où lesdonnées sont groupées par classes.Interprétation de l"écart type échantillonnal.L"écart type mesure la dispersion entre toutes les valeurs observées. Des valeursproches donneront un plus petit écart type, alors que des données très séparéesdonneront un plus grand écart type.Lorsque la distribution des données (histogramme ou polygone des fréquencesou autre) a une forme en cloche et que la taille de l"échantillon est supérieure à100, on doit s"attendre à avoir68% des données observéescomprises entre lamoyenne plus ou moins un écart type et 95% des données observées soientcomprises entre la moyenne plus ou moins deux écarts types. Si on se trouvedans les mêmes conditions on peut estimerl"écart type par la formule suivante:

1.7.3.1: Propriétés de l"écart type échantiollonnal.Soit X une variable quantitative dont l"écart type échantillonnal est

et soit Yune autre variable quantitative telle que

où a et b sont desconstantes réelles. Alors l"écart type échantillonnal de Y sera égal à

Exemple 1.7.3.1.1:Reprenons le contexte de l"exemple 1.5.2.4.1, où X est lenombre d"heures qu"un étudiant travaille à temps partiel par semaine. Supposons

Biostatistique L3

29

qu"àpartir d"un échantillon d"étudiants,on aitpu trouvé que l"écart type dunombre d"heures travaillées par ces étudiants est égalà

heures/semaine. Si le salaire horaire est de 10$ et que les patrons de cesétudiants leur offrent 30$ par semaine pour leurs déplacements, quel est l"écarttype du gain net hebdomadaire de ces étudiants? Posons Y, le gain nethebdomadaire de ces étudiants alors

, donc l"écart type du gainnet de cet échantillon d"étudiants sera égal à

$/semaine.1.7.4: Le coefficient de variation.On avait dit que l"unité de l"écart type d"une variable est la même que celles desdonnées etqu"alors il s"interprète mieux que la variance. Mais si on veutcomparer la dispersion de deux variables ou plus ayant des unités différentesmesurées sur le même échantillon ou sur des échantillons différents, il nous fautune mesure de dispersion sans unité. Cette mesure est le coefficient de variation.Pour un échantillon de données dont la moyenne est non négative, on définit lecoefficient de variation d"une variable X par:

Si on a un seul échantillon de données, alors si le coefficient de variation de Xest inférieur à 15%, on dit que la variable est homogène, sinon elle est ditehétérogène.Si on a deux échantillons (sur une oudeux variables) ou plus, alors celui(oucelle)qui a le plus petit coefficient de variation est le (ou la) plus homogène.Exemple 1.7.4.1:On a pris un échantillon de taille n=50 d"hommes d"âgeadultes, on a mesuré leur poids et leurtaille. Les résultats sont résumés dans letableau suivant:VariableMoyenneÉcart typeX=taille

=173,59 cm

Y=poids

=11,98 kgPour comparer l"homogénéité de ces deux variables, on utilise leur coefficientde variation.

Donc la taille des hommes adultes est plus homogène que leur poids.Ce quicorrespond à l"intuition. Par exemple il esttrèsrare de voir deux hommes

Biostatistique L3

30

adultes dont l"un serait deux fois plus grand que l"autre, alors qu"il est fréquentdevoir un hommeadulte dont le poidsest le double d"un autre.Exemple 1.7.4.2:Pour comparer les distributions des blessures graves dans lebasketball et dans le soccer, on a sélectionné au hasard 25 cégeps où ces sportsse pratiquent en sport-étude. On a obtenu chez les étudiants masculins,lesdonnéesrelatives aux nombres de blessures gravespar annéedans ces deuxsports:Basketball1 2 4 4 7 33 2 4 524 3 5 3 4 4 3 6 5564 65Pour comparer ces deux échantillons, calculons d"abord leurs mesuresstatistiques de base.Variable N N* Mean SE Mean StDev Minimum Q1 Median Q3 MaximumBasket 25 0 4.000 0.294 1.4721.000 3.000 4.000 5.000 7.000Soccer 25 0 4.000 0.490 2.449 1.000 1.500 4.000 6.500 7.000On voit que leur moyenne et leur médiane sont toutes égales à 4, donc si on selimitait auxmesures de tendances centrales,on auraitconclu à une similitude deces deux distributions.Mais en comparant leur écart type et donc leur coefficient de variation, on voitque les données sur le soccer sont plus dispersées. Ce qu"on peutaussiconfirmerpar des graphiques suivants:

SoccerBasket

7 6 5 4 3 2 1 Data

BoxplotofBasket,Soccer

Ayez un esprit critique.

Soccer1 7 7 6 1 2 6 1 7 21 32 7 5 6 1 7 4 15 7 6 3 2

Biostatistique L3

31

Maintenant qu"on est armé d"outils pour examiner la tendance centrale, ladispersion, la distribution des données, les valeurs extrêmes ou aberrantes, onpourrait être tenté de développer une procédure mécanique et aveugle, maispenser de façon critique est d"une importance primordiale dans toute analyse dedonnées. En plus de l"utilisation des outils présentés dans ce chapitre, il estimportant de ne pas négliger tout autre facteur qui s"y rapporte et qui pourraitêtre crucial pour les conclusions de l"étude. On pourrait penser par exemple à lareprésentativité des données, à la source des données qui pourrait affecter leurqualité. En résumé, en plus des outils présentés dans ce chapitre, on devrait aussipenser.

quotesdbs_dbs22.pdfusesText_28
[PDF] Intervalles de fluctuation - estimation - Académie en ligne

[PDF] Comment bénéficier d 'ampoules LED totalement gratuites pour son

[PDF] ECandidat - FEG

[PDF] Texte court amylase-lipase - HAS

[PDF] L 'amyotrophie spinale proximale - Orphanet

[PDF] An illustrated history of Britain

[PDF] An Introduction to Mapping and Spatial Modelling R - ResearchGate

[PDF] Dossier d orientation des étudiants désirant poursuivre leurs études

[PDF] Visa de recherche d 'emploi pour les diplômés de l 'enseignement

[PDF] BIOSYNTHESE DES LIPIDES ( LIPOGENESE )

[PDF] sur Anfa supérieur - Softgroup

[PDF] locative de prestige ? Casablanca - Softgroup

[PDF] CIRCUITOS y SISTEMAS I

[PDF] ZARA Y SU ANÁLISIS ESTRATÉGICO

[PDF] Análisis Nueva Constitucion - Bibliothek der Friedrich-Ebert-Stiftung