[PDF] Les statistiques représente le calcul de





Previous PDF Next PDF



Cours de statistique descriptive - Archive ouverte HAL

2 août 2016 les caractéristiques centrales (moyenne médiane



Statistiques descriptives et exercices

2.7 La dispersion d'une série statistique autour de sa moyenne . . . . . . . . . . . . . 24 Déterminer la médiane ainsi que les 1er et 3ème quartiles.



Statistiques

(Par exemple candidats au concours de la filière ECT habitants de la France . Déterminer la moyenne



Statistiques 3

Remarque : pour calculer le salaire moyen comme 12 personnes gagnent entre 1000 et 1200 euros





Les statistiques

représente le calcul de la moyenne d'un échantillon de n sujets Lorsque l'on souhaite calculer une moyenne arithmétique plus ... quartiles …etc.



STATISTIQUE DESCRIPTIVE

agronomie sociologie



ECT 1 Statistiques

5 jui. 2010 Moyenne. Etendue. Médiane. 2. Comparer d'un point de vue qualitatif à la lueur ... Donner l'étendue la médiane et les quartiles de cette.





Les statistiques

1. Notion de population et d'échantillon:

En statistiques, la volonté principale est de pouvoir décrire et d'analyser des données relatives à des phénomènes qui vont

être caractérisés par des données.

Le problème de l'utilisation ultérieure de ces caractéristiques sera de savoir si elle sont bien transférables et généralisable s à un groupe plus élargi, alors qu'elles sont issues en fait la plupart du temps, d'un sous ensemble réduit de ce groupe. Cela renvoie à une notion essentielle en statistique: la population et l'échantillon.

1.1. Populations:

La population réfère à l'intégralité des individus ou organisations répondant à un certain nombre de caractères communs (hommes âgés entre 30 et 40 ans, p.e.). Une population peut être de faible effectif (hommes ayant mis le pied sur la lune), ou au contraire (la plupart du temps) de grand effectif (sujets sportifs de niveau international). Dès lors, il est impossible physiquement de les réunir dans une étude unique, aussi ambitieuse soit-elle. Il faut donc procéder à un découpage de cette population, c'est-à-dire à la définition d'un échan tillon.

1.2. Echantillon issu d'une population:

Un échantillon sera défini comme étant un sous-ensemble (à priori représentatif) d'une population. Les caractéristiques devront être les mêmes pour que celle de la population dont l'échantillon sera issu. Statistiques - Master 1 Tronc commun - UE3 E1 - Page 1 La plupart du temps un échantillon type n'existe pas et l'expérimentateur devra alors opérer des choix difficiles et délicats afin que l'échantillon soit représentatif de la population. Dans le cas inverse, les conclusions des descriptions ne pourront être considérées valides que pour l'échantillon, c'est-à- dire que toute généralisation devient impossible donc l'étude perd toute sa raison d'être (p.e. enquête d'opinion). Dans certains cas, des principes peuvent être édictés (code INSEE), sinon l'expérimentateur aura recours à un échantillon tiré au hasard (random sample).

1.3. Echantillon tiré au hasard:

S'il existe un grand nombre de moyens de soustraire un échantillon, la validité de la généralisation dépend des choix méthodologiques. Dans un tirage au sort, la règle de base consiste à respecter deux conditions: a)chaque membre de la population à une égalité de chance d'être choisi b)chaque choix est indépendant des autres En pratique, ces conditions ne peuvent être respectées que s'il est possible d'attribuer un nombre à chaque sujet, puis d'opérer un tirage au sort, ou par l'utilisation de tables de tirage au sort . Il est très souvent impossible d'opérer strictement à de tels tirages au sort. Il convient alors de connaître et de définir des règles de sélection sur des critères les plus objectifs possibles et en tout état de cause basés sur des connaissances précises permettant de caractériser l'échantillon et de répartir les sujets testés dans des groupes distincts (le cas échéant) après tirage au sort. Toutes les possibilités de biais Statistiques - Master 1 Tronc commun - UE3 E1 - Page 2 pouvant rendre une sélection non indépendante doivent donc

être soigneusement examinées.

Quand le tri au hasard est possible : il s'agit de randomisation SINON on peut recourir à des techniques comme l'appariement (sur un certain nombre de variables).

2. Les statistiques descriptives

2.1. Notions de paramètres et de statistiques:

Lorsque l'on cherche à réduire une information pour mieux la comprendre, on est amené à utiliser deux notions fondamentales: la mesure de la tendance centrale (moyenne ou médiane) et la dispersion autour de cette tendance centrale (range, écart-type...). Ces deux notions sont appelées paramètres. Une statistique renvoie plus globalement à toute estimation d'un ou plusieurs paramètres concernant une population et a été proposé pour la première fois par Fisher en 1925. Par extrapolation, on a appelé les statistiques toutes les procédures permettant d'exprimer des paramètres ou d'en étudier leur comportement dans des situations spécifiques. Comme nous l'avons vu plus haut, la sélection d'un échantillon idéal n'existe que très rarement. C'est pourquoi, il faut admettre que les paramètres issus de plusieurs échantillons d'une même population peuvent présenter des variations (taille des étudiants de la moitié d'un amphi, p.e.). Cela renvoie à la notion d'intervalle de confiance d'un paramètre statistique et appelle quelques remarques: Statistiques - Master 1 Tronc commun - UE3 E1 - Page 3 * la nécessité de recruter autant de sujets possibles afin de minimiser les sous-estimations et les sur-estimations par l'obtention d'une moyenne stable sur le long terme * si un paramètre est obtenu sur un échantillon réduit, sa représentativité devra être discutée au regard de valeurs de références (si celles-ci existent) * un paramètre statistique sera d'autant plus consistent et fiable que l'échantillon sera suffisamment grand. En statistique, par convention, les lettres grecques sont utilisées pour exprimer des paramètres sur des populations, et les lettres romaines pour les paramètres d'échantillons. Ex: N Xi N i 1 représente le calcul de la moyenne d'une population de N sujets n Xi X n i 1 représente le calcul de la moyenne d'un échantillon de n sujets

2.2. Les méthodes de mesure de la tendance centrale:

2.2.1. Moyennes:

La valeur centrale qui résume au mieux une distribution de données de scores est la moyenne arithmétique: Statistiques - Master 1 Tronc commun - UE3 E1 - Page 4 n Xi X n i 1 ou plus simplement: N x X La moyenne a une propriété fondamentale: la somme des

écarts à la moyenne est nulle:

)(XXi = 0

Autres expressions de moyennes:

- la moyenne géométrique, définie comme la racine nième du produit des n valeurs, ces dernières étant toutes strictement positives, n n i n nXiXXXXgX 1

321....

Cette moyenne est utilisée :

a)quand on veut calculer la tendance centrale de ratios et qu'il est souhaité leur donner le même poids b)quand on veut moyenner des changements exprimés en pourcentage - la moyenne harmonique, définie comme l'inverse de la moyenne arithmétique des inverses des n valeurs, ces dernières étant toutes strictement positives. Xi n Xin XH 111
1 Cette moyenne est utilisée quand on veut moyenner des taux (rare). Statistiques - Master 1 Tronc commun - UE3 E1 - Page 5 Lorsque l'on souhaite calculer une moyenne arithmétique plus rapidement, il est possible de passer par un tableau de fréquences et la moyenne est calculée ainsi: n fiXi X i k 1 où k = nombre de classes différentes.

2.2.2. Médiane.

Le concept de moyenne n'a de sens que pour échelles d'intervalles, proportionnelles et de rapport. La tendance centrale d'une distribution de variables ordinales est représentée par la médiane. La médiane est définie co mme la valeur de la variable telle que 50% des observations lui soient inférieures et 50% lui soient supérieures, en d'autres termes, la valeur étant au milieu d'une série de données ordonnées. Lorsque ne nombre total d'observation est impair, le définition de la médiane ne pose pas de problème: le rang médian est

égal à :

M=X (n+1)/2 Dans le cas d'effectif pair, la médiane est définie par la valeur à mi-chemin entre les valeurs des deux rangs concernés. Par exemple, si n=10, X (n+1)/2 =X 5.5 . On prend donc les valeurs du 5° et du 6° rang, puis on en fait la moyenne. Statistiques - Master 1 Tronc commun - UE3 E1 - Page 6 Comment traiter le problème des rangs ex-aequo?

Principe:

additionner les rangs des ex-aequo diviser par le nombre d'ex-aequo affecter ce résultat aux ex-aequo

Xi Rang sans

traitement des ex- aequo

Rang avec

traitement des ex- aequo

12 1 1

14 2 2

16 3 (3+4+5)/3=4

16 4 4

16 5 4

18 6 6

19 7 7

25 8 (8+9)/2=8.5

25 9 8.5

32 10 10

Vérification: le dernier rang est toujours égal à n (sauf si ex- aequo présents au dernier rang). Statistiques - Master 1 Tronc commun - UE3 E1 - Page 7 UNITE : l'unité de la médiane est la même que celle des données de base

INCONVENIENT DE LA MEDIANE : elle donne moins

d'informations que la moyenne, car elle ne prend pas en compte la valeur des variables, mais leur rang.

AVANTAGE DE LA MEDIANE :

1. des mesures extrêmes (hautes ou basses) affecteront

peu la médiane, alors que leur influence sur la moyenne serait très importante. La médiane est qualifiée de statistique résistante

2. lors de répartitions éloignées de la normale, la médiane

est une statistique de tendance centrale méthodologiquement plus juste et plus pertinente.

2.2.3. Le mode.

En ce qui concerne les échelles nominales, c'est-à-dire les données de numération, ni la moyenne ni la médiane ne sont accessibles. Le mode est défini comme la catégorie pour laquelle l'effectif est le plus grand (ou comme la valeur la plus fréquemment attribuée). Le mode n'a vraiment de sens que si une catégorie présente un effectif nettement supérieur aux autres. On peut noter enfin que le mode est lié à la conception des classes: il suffit par fois de subdiviser la classe modale en deux sous-classes pour que le mode ne se trouve plus dans l'une d'entre elles. Statistiques - Master 1 Tronc commun - UE3 E1 - Page 8 Exercice exemple E3: Mode= 4; remarque: ici le calcul du mode est peu pertinent (cf observation précédente)

2.2.4. Positions relatives du mode, de la médiane et de

la moyenne: La compréhension des différences entre ces valeurs est importante car leur position respectives vont dépendre de la répartition des effectifs.

Si l'on considère les 3 cas suivants:

En haut, la distribution est unimodale et symétrique.

Moyenne, médiane et mode sont confondus.

Dans le cas a), la distribution est décalée vers la droite (la plupart des sujets ont des valeurs basses). La médiane et le mode ne peuvent pas coïncider car lorsqu'on se trouve sur le mode, il reste trop d'observations à droite du sommet (le mode) pour que celui-ci divise la population en deux effectifs égaux. La médiane est donc nettement à droite du mode. Position de la moyenne (point d'équilibre de la distribution): si on considère que le point d'équilibre de la répartition se situe sur la médiane, on fait une erreur, car les valeurs se trouvant sur la partie droite de la distribution sont plus éloignées de la médiane que celles situées à gauche. Elles vont donc exercer une force plus importante du coté droit. La moyenne est donc située à droite de la médiane [partie b) de la figure]. Statistiques - Master 1 Tronc commun - UE3 E1 - Page 9 POURQUOI? La médiane intègre seulement des effectifs (50% d'un coté, 50% de l'autre), la moyenne intègre la valeur de chaque variable, donc son poids relatif au point d'équilibre. Statistiques - Master 1 Tronc commun - UE3 E1 - Page 10

2.2.5. Comment choisir l'expression la plus appropriée

de la tendance centrale? Il n'existe pas vraiment de loi absolue. Tout dépend des

Voir la figure suivante.

distributions étudiées. Le mode se situe proche du 0: donc il existe une très forte dans une fourchette proportion d'individus ayant aucun revenu.

La plus grosse masse de revenus se situe

de 2000 à 20 000 $. Cette information n'est donc pas perceptible à travers le mode. Il est fort probable que cette seule information ne permettrait pas de rendre compte de l'évolution du revenu des américains entre deux périodes, pour peu que l'effectif le plus fort soit toujours proche de zéro.

Le mode n'a ici aucune utilité

Statistiques - Master 1 Tronc commun - UE3 E1 - Page 11 La médiane est proche de 8000$. Son utilité est immédiatement plus perceptible: 50% des américains gagnent plus et autant gagnent moins. Elle permet donc de dégager un profil "type" de l'américain moyen. Elle a en outre un autre avantage, c'est sa stabilité. En effet, si les revenus les plus élevés augmentaient fortement, comme ils sont aussi les moins nombreux, ils ne modifieront pratiquement pas la médiane. La moyenne est proche des 10000$. Chaque dollar gagné par de calculer très t: moins pertinente pour mesurer le revenu EN RESUME: cet exemple montre bien que le mode est la données la représentation de l'histogramme des distribution est toujours riche d'informations. un riche ou un pauvre comptera de façon égale dans le calcul de la moyenne et pèsera d'un poids égal. C'est à la fois l'avantage et l'inconvénient de la moyenne:

Avantage: elle permet notamment

rapidement la richesse totale (valeur moyenne fois nombre d'individus)

Inconvénien

"type" car la moyenne sera fortement influencée par de fortes variations des faibles ou très hauts revenus (alors que la "classe moyenne" ne verra pas ses revenus être modifiés). Elle manque donc de stabilité valeur centrale la plus simple à calculer, mais aussi la plus mauvaise. La médiane fournit l'indication la plus typique de la majorité des individus. La moyenne est la seule à tenir compte de la totalité des observations et de leur poids relatif. C'est la raison pour laquelle elle est si souvent utilisée, mais L'objectif poursuivi dans l'analyse descriptive des reste un élément déterminant de choix entre moyenne et médiane.

De plus,

Statistiques - Master 1 Tronc commun - UE3 E1 - Page 12 ENFIN: ne pas oublier que certaines variables ne permettent pas le calcul pertinent d'une moyenne (variables qualitatives

2.3. Les mesures de dispersion et de diversité :

La seule mesure de la tendance centrale est insuffisante pour ndre compte de façon synthétique d'une distribution de qui donne une indication précise de la nature des r de la

2.3.1. Intervalle de variation (Range)

Il s'agit de la différence entre la plus petite et la plus grande valeu ce, s'il donne un ordre d'idée sur l'écart maximal, n'est pas capable de rendre cersion réelle des notes issues d'échelles ordinales) re données. Il faut donc ajouter la notion de dispersion ou mesure de la variabilité, variations des données autour de la tendance centrale. C'est une valeur qui préciser utilement la perception des données (groupe homogène = petite dispersion autou tendance centrale; groupe hétérogène = grande dispersion autour de la tendance centrale) Ici encore, plusieurs expressions existent mais ne fournissent pas les mêmes indications r.

Range = X

n -X 1

Cet indi

ompte de la disp autour de la tendance centrale. Statistiques - Master 1 Tronc commun - UE3 E1 - Page 13

2.3.2. Variance, écart type et erreur standard de la

moyenne Une des façons les plus démonstratives de calculer la dispersion est d'inclure dans une formule une expression des

écarts à la moyenne.

Comme par définition la somme des écarts à la moyenne est nulle, il est communément utilisé en statistique une valeur au carré de ces écarts, appelée Somme de carré des écarts ( SCE) Pour raisonner sur un seul groupe, cette estimation serait suffisante. Par contre, la comparaison de groupes d'effectifs différents poserait problème, car la SCE serait probablement plus grande, mais uniquement à cause d'un effectif plus élevé. C'est pourquoi on a alors recours au calcul de la variance, qui est en fait la SCE normalisée par rapport à l'effectif du groupe (variance d'une population = sigma minuscule ou ², variance d'un échantillon = s²) XXi N Cette formule présente l'inconvénient majeur de procéder à une exponentiation d'erreurs dues aux arrondis successifs des écarts à la moyenne. Pour supprimer ce biais, on utilise une autre expression, sachant que:

²)²()²(XXXiXXXii

2 En développant les X comme étant la somme des X i /N, en factorisant et en simplifiant, on en arrive à l'expression suivante: )²(XXSCEi Statistiques - Master 1 Tronc commun - UE3 E1 - Page 14 N X X i i On a donc une expression plus simple et plus juste de la variance: N N X X i i Une variance calculée sur un échantillon n'est qu'une stimation de la variance d'une population parente. Les e statisticiens ont pu démontrer que la meilleure estimation de la variance pour un échantillon d'effectif n peut être obtenue ainsi: i i X X 1 n n ²s n-1 représente le nombre de degrés de liberté de la variable, c'est-à-dire qu'il suffit que n-1 valeurs soient connues pour la détermination de la n ième valeur.

En pratique, l'écart type (

²s ou dans les calculs de probabilités. D'autre part, l'écart type a l'avantage d'être une mesure de distance (ou d'intervalle, cf. P1), s) est souvent beaucoup plus tilisé que la variance car il possède de meilleures qualités alors que la variance est une u mesure d'intervalle au carré. Une grandeur peut donc être comparée à son écart type, mais pas à sa variance. Statistiques - Master 1 Tronc commun - UE3 E1 - Page 15

Par définition, l'écart type :

* P1: Prendra la même unité que la variable mesurée * P2: Ne peut être que positif * P3: Sera nul si toutes les valeurs individuelles sont les mêmes * P4: Sera d'autant plus grand que les valeurs s'écartent souvent de la moyenne et de façon importante Une autre propriété importante à connaître est que : si une distribution est normale (Gaussienne), 95% des éléments de l'échantillon sont compris dans un intervalle de 2 déviations standards autour de la moyenne. Une variante de l'écart type (ou déviation standard, DS ou SD) est représenté par l'erreur standard de la moyenne (ou SEM).

Son calcul est très simple:

n s SEM Son intérêt est de compenser l'effet d'un effectif sur la valeur d equotesdbs_dbs47.pdfusesText_47
[PDF] Moyenne, variance et ecart-type

[PDF] moyenne/médiane/étendue

[PDF] Moyennes

[PDF] Moyennes arithmétiques

[PDF] Moyennes et fonctions

[PDF] Moyennes et pourcentages

[PDF] Moyennes Mathématiques

[PDF] Moyennes Pour statistique

[PDF] moyens de production d'électricité

[PDF] moyens de protection du sol

[PDF] Moyens de transport et émissions de C02

[PDF] Moyens mémo-technique

[PDF] Moyens permettant ? un robot de contourner des obstacles

[PDF] moyens plastiques pour montrer le mouvement sur image fixe

[PDF] moyens pour avoir une bonne note au brevet