[PDF] Statistique Numérique et Analyse des Données PDF Poly2.pdf

1 Éléments de statistique descriptive 3 5 Testd'hypothèses Liste des tableaux Le but de ce chapitre est d'introduire les statistiques principales et de donner Contrairement à la moyenne, la médiane et le mode ne sont pas toujours uniques Pour comprendre ce qu'apportent les méthodes d'analyse de données,

Cours de Mme Chevalier Chapitre 1 – Présentation de l'analyse des données I Statistique descriptive et statis- Méthodes descriptives : pas d'hypothèses probabi- listes, pas de possibilité Hypothèses probabilistes restrictives sur ces va-

[PDF] Cours de Statistiques niveau L1-L2 - Archive ouverte HAL

7 mai 2018 · 1 Statistiques descriptives 2 Introduction à la théorie des probabilités 3 Estimation paramétrique 4 Introduction aux tests d'hypothèse

[PDF] Principes et Méthodes Statistiques

7 1 1 Loi de probabilité d'une variable aléatoire Chapitre 1 - Introduction ( par exemple on ne sait pas prévoir avec certitude les cours de la bourse ou les pannes La statistique descriptive, statistique exploratoire ou analyse des données, millions d'électeurs et la variable est la personne ou la liste pour laquelle

[PDF] STATISTIQUE DESCRIPTIVE

CHAPITRE 1 Page 3 STATISTIQUE DESCRIPTIVE 1 MÉTHODE STATISTIQUE 1 1 Puis s'est développé le calcul des probabilités et des méthodes statistiques sont savoir si deux populations sont comparables (tests d'hypothèses) Lorsque la variable ne se prête pas à des valeurs numériques, elle est dite

[PDF] TD n° 1 STATISTIQUE DESCRIPTIVE 7 13 8 10 9 12 10 8 9 10 6 14

A4 a) En utilisant les touches statistiques de votre calculatrice, déterminer à partir polycopié du chapitre 1 indiquées ci-dessous : Un arrangement où l' ordre de présentation des éléments n'est pas pris en considération cette donnée comme probabilité de vendre 4 gâteaux dans une même paramètres descriptifs?

[PDF] Statistiques descriptives et exercices

description se fait à travers la présentation des données (la plus synthétique possible), leur Analyse des données (outils scientifiques permettant de résumer un ensemble de Les statistiques descriptives visent à étudier les caractéristiques d'un ensemble d'ob- Pour le calcul, on utilise (voir Chapitre 2, Théorème 1)

[PDF] Statistique Numérique et Analyse des Données

[PDF] Analyse statistique des donn´ees dexpression - Institut de

14 2 Description statistique élémentaire 17 1 Introduction permet le traitement et l'analyse d'ensembles de données tr`es volumineux Méthodes statistiques dites inférentielles et de modélisation : tests, tests Ce déroulement pédagogique linéaire ne doit pas faire perdre de vue que la réalité de type probabiliste

[PDF] Statistique 1 - FOAD - MOOC

De la donnée à la connaissance : traitement, analyse et transmission Élément 424b Introduction à la statistique descriptive Prof Marie-Hélène de Sède-

[PDF] Cours de Statistique Descriptive

L'objectif de la Statistique Descriptive est de décrire de façon synthétique et parlante des données 2 Analyse descriptive univariée 2 1 Vocabulaire 1 On appelle population un ensemble Ces données seront souvent utilisées dans ce chapitre peut, entre autre méthode, nous permettre d'approcher au mieux le prix

[PDF] CHAPITRE 11 : RAPPELS SUR LES. FONCTIONS DE REFERENCE. I. Fonctions affines et fonctions linéaires. 1. Définitions. Une fonction affine f est définie<

[PDF] Chapitre 13 Quadrilatères. Sylvain DUCHET http://epsilon.2000.free.fr. 1 / 3. QUADRILATERES. 1) Définitions définitions. Un quadrilatère est une f

[PDF] Chapitre 23 : Triangles et quadrilatères particuliers. I Triangles particuliers. 1) Ce qu'il faut savoir. Triangle isocèle. Triangle équilatéral. Déf

[PDF] chapitre 6 candide lecture méthodique

[PDF] Chapitre 8 Relations trigonométriques dans le triangle rectangle. On considère un triangle ABC rectangle en C. On appelle a et b les mesures respect

[PDF] CHAPITRE G2 DROITES PARALLÈLES ET PERPENDICULAIRES ... Deux droites sont perpendiculaires elles sont sécantes en formant un angle droit.[PDF] droite

[PDF] Chapter 1

[PDF] Chapter 27 The Americans

[PDF] Characteristics of UK education system

[PDF] charles baudelaire écrits sur l'art

[PDF] Charlie caught a big fish

[PDF] Chart pattern recognition Python

[PDF] charte de la diversité france

[PDF] chartist trading

[PDF] Château de Chenonce...

Statistique Numérique et Analyse

des Données

Arnak DALALYAN

Septembre 2011

Table des matières

1 Éléments de statistique descriptive 9

1.1 Répartition d"une série numérique unidimensionnelle . . . . . . . . . . . . . .

1.2 Statistiques d"une série numérique unidimensionnelle . . . . . . . . . . . . . .

1.3 Statistiques et représentations graphiques de deux séries numériques . . . . .

1.4 Résumé du Chapitre 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2 Analyse des données multivariées 21

2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2 Exemple : billets suisses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.3 La théorie de l"Analyse en Composantes Principales . . . . . . . . . . . . . . .

2.4 Représentations graphiques et interprétation . . . . . . . . . . . . . . . . . . .

2.5 Résumé du Chapitre 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3 Rappel des bases de la statistique paramétrique 35

3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.2 Modèle statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.3 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.4 Intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.5 Test d"hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.7 Résumé du Chapitre 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4 Régression linéaire multiple 55

4.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.2 Lois associées aux échantillons gaussiens . . . . . . . . . . . . . . . . . . . . .

4.3 Le modèle gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.4 Régression linéaire multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.6 Résumé du Chapitre 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5 Tests d"adéquation 73

5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.2 Tests du chi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.3 Test de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.4 Résumé du Chapitre 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4Table des matières Chapitre 06 Tables numériques 83

6.1 Quantiles de la loi normale centrée réduite . . . . . . . . . . . . . . . . . . . .

6.2 Table de la loi du khi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.3 Table de la loi de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.4 Quantiles pour le test de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . .

Table des figures

1.1 Histogrammes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2 Fonction de répartition empirique . . . . . . . . . . . . . . . . . . . . . . . . .

1.3 Répartitions asymétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.4 Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.5 Nuage de points . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.6 Nuage de points pour les données transformées . . . . . . . . . . . . . . . . .

1.7 Nuage de point et droite de régression . . . . . . . . . . . . . . . . . . . . . . .

1.8 QQ-plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.1 1000 Francs Suisses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2 Billets suisses : boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.3 Billets Suisses : matrice de scatter plots . . . . . . . . . . . . . . . . . . . . . . .

2.4 Billets suisses : projection des individus . . . . . . . . . . . . . . . . . . . . . .

2.5 Billets suisses : scree-graph et cercle des corrélations . . . . . . . . . . . . . . .

3.1 La log-vraisemblance du modèle de Bernoulli . . . . . . . . . . . . . . . . . . .

3.2 La log-vraisemblance du modèle exponentielle . . . . . . . . . . . . . . . . . .

3.3 La log-vraisemblance du modèle Uniforme . . . . . . . . . . . . . . . . . . . .

3.4 Intervalles de confiance pour le modèle de Bernoulli . . . . . . . . . . . . . . .

3.5 Les quantiles de la loiN(0,1). . . . . . . . . . . . . . . . . . . . . . . . . . . .46

4.1 Données de pluie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.2 La répartition des données du taux d"alcool . . . . . . . . . . . . . . . . . . . .

4.3 Données de pluie : droite de régression . . . . . . . . . . . . . . . . . . . . . .

5.1 Le test de Kolmogorov s"appuie sur la distance entre fonction de répartition

empirique et théorique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

5.2 Présentation usuelle de la distance de Kolmogorov. . . . . . . . . . . . . . . .

Liste des tableaux

1.1 Données PIB-Consommation d"énergie par habitant . . . . . . . . . . . . . . .

2.1 Données des billets suisses authentiques . . . . . . . . . . . . . . . . . . . . . .

2.2 Données des billets suisses contrefaits . . . . . . . . . . . . . . . . . . . . . . .

4.1 Hauteurs d"arbres dans 3 forêts . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.2 Jour et quantité de pluie par années . . . . . . . . . . . . . . . . . . . . . . . .

6.1 Quantiles de la statistique de Kolmogorov . . . . . . . . . . . . . . . . . . . . .

87
1

Éléments de statistique descriptive

Le but de ce chapitre est de présenter les outils graphiques les plus répandus de la statis- tique descriptive. On considérera les cas d"une série numérique unidimensionnelle et bidi- mensionnelle.

Avant de rentrer dans le vif du sujet, apportons une petite précision à une idée très large-

ment répandue, selon laquelle le but de la discipline statistique est d"analyser des données

issues d"une expérience à caractère aléatoire. Cela sous-entend qu"il n"est pas possible ou

qu"il n"est pas utile d"appliquer la méthodologie statistique aux données recueillies par un

procédé déterministe (non aléatoire). Cette une déduction erronée. La bonne définition de

l"objectif de la Statistique en tant que discipline scientifique, à notre avis, serait d"explorer

les "propriétés fréquentielles» d"un jeu de données. Par "propriétés fréquentielles», on com-

prend les propriétés qui restent invariantes par toute transformation des données (comme, par exemple, la permutation) qui ne modifie pas la fréquence des résultats. Le but de ce chapitre est d"introduire les statistiques principales et de donner un aperçu des outils graphiques les plus utilisés.

1.1 Répartition d"une série numérique unidimensionnelle

Supposons que les données qu"on a à notre disposition représententnvaleurs réelles -

notéesx1,...,xn- constituant les résultats d"une certaine expérience répétéenfois. Des

exemples de source de telles données sont : les sondages, les expériences scientifiques (phy- siques, chimiques, médicales,...), les enregistrements historiques (météorologiques, socio-

économiques,...). Dans certains cas, ces données sont volumineuses et difficiles à interpréter.

On a alors besoin de les résumer et de trouver des outils pertinents pour les visualiser.

Afin que l"analyse statistique d"une série numérique ait un sens, il faut que les différents

éléments de cette série représentent la même quantité mesurée sur des entités différentes.

Par exemple,x1,...,xnpeuvent être les hauteurs denimmeubles choisis au hasard à Paris,

ou les températures journalières moyennes à Paris enregistrées au cours de l"année 2009,

etc. On dit alors quex1,...,xnsont les valeurs d"une variable (statistique) observées surn individus.

10Éléments de statistique descriptive Chapitre 1On va différencier deux types de séries numériques : celles qui représentent une variable

discrète et celles qui représentent une variable continue

1. On dit qu"une variable est discrète,

d"être rigoureuse, mais cela n"est en général pas très gênant. Dans les deux exemples donnés

au paragraphe précédent, les variables "hauteur d"immeuble» et "température journalière

moyenne» sont continues. Si au lieu de mesurer la hauteur d"un immeuble, on comptait le nombre d"étages, ce serait une variable discrète.

1.1.1 Histogramme

Pour les séries numériques représentantes une variable discrète, on définit l"histogramme

comme la fonctionh:R!Nqui à chaquex2Rassocie le nombre d"éléments dans la série x

1,...,xnégaux àx. Par exemple, l"histogramme de la série numérique

10 8 9 6 5 9 8 7 6 5 6 9 10

8 7 8 7 8 7 6 9 10 9 8 5 9(1.1)

est tracé dans la Figure 1.1 (à gauche). Une approche alternative consiste à définirh(x)

comme la proportion des éléments dans la série égaux àx. On utilise alors la forme ana-

lytique h(x) =1n nå

i=11(xi=x).Dans le cas où la série numérique qu"on cherche à analyser est continue, on commence par

choisir une partition deRen un nombre fini d"intervalles :I0,I1,...,Ik. Ayant fixé la parti- tion, on définit l"histogramme de la sériex1,...,xncomme la fonctionh:R!R+donnée par la formule

h(x) =njnjIjj, six2Ij,oùnjest le nombre d"éléments de la série qui se trouvent dans lejème intervalleIjde la

partition etjIjjest la longueur de l"intervalleIj. Le choix de la partition est une question délicate que l"on n"approfondira pas ici. Dans la plupart des cas, on choisit une partition uniforme (c"est-à-dire, tous lesIjsont de même longueur) d"un intervalle contenant toutes les valeurs de la série numérique. De plus, on essaye de faire en sorte qu"il y ait au moins 5 observations dans chaque intervalle non-vide. Par exemple, l"histogramme de la série numérique

0.11 0.81 0.94 0.62 0.50 0.29 0.48 0.17 0.26 0.55

0.68 0.17 0.28 0.57 0.98 0.77 0.56 0.49 0.31 0.89

0.76 0.39 0.64 0.05 0.91 0.78 0.59 0.79 0.07 0.86(1.2)

est tracé dans la Figure 1.1 (à droite).

1.1.2 Fonction de répartition empirique

Une représentation alternative des fréquences des valeurs contenues dans une série numé-

rique est la fonction de répartition, appelée également histogramme cumulé. Pour unx2R,1. Le termevariable continuen"est pas très bien choisi, mais cela ne pose pas de problème majeur.

Section 1.2 Statistiques d"une série numérique unidimensionnelle11FIGURE1.1 -Exemples d"histogrammes. A gauche : l"histogramme de la série discrète (1.1). A

droite : l"histogramme de la série (1.2).FIGURE1.2 -Fonction de répartition empirique (FDRE). A gauche : la FDRE de la série discrète (1.1).

A droite : la FDRE de la série (1.2). On voit bien que c"est une fonction en escalier croissante, qui vaut

0 sur l"intervalle]¥,minixi[et qui vaut 1 sur l"intervalle]maxixi,+¥[.

la valeur enxde la fonction de répartition d"une série numériquex1,...,xnest la proportion des éléments de la série inférieurs ou égaux àx, c"est-à-dire :

Fn(x) =1n

nå

i=11(xix).L"avantage de la fonction de répartition, comparé à l"histogramme, est que sa définition est

identique dans le cas d"une variable discrète et dans le cas d"une variable continue.

1.2 Statistiques d"une série numérique unidimensionnelle

On appelle

une statistique toute f onctionqui associe aux données x1,...,xnun vecteur S(x1,...,xn)2Rp. On utilise les statistiques pour résumer les données.

1.2.1 Statistiques de tendance centrale et de dispersion

Les trois statistiques de tendance centrale les plus utilisées sont la moyenne, la médiane et le

mode. On les appelle également les statistiques de position.

12Éléments de statistique descriptive Chapitre 1La moyenne,notée¯x, est définie par :

x=1n nå i=1x i.La médiane,notéeMedx, est un nombre réel tel qu"au moins la moitié des données sont Medxet au moins la moitié des données sontMedx. Le mode,notéModex, est la valeur la plus fréquente à l"intérieur de l"ensemble des don- nées. Contrairement à la moyenne, la médiane et le mode ne sont pas toujours uniques.

Les trois statistiques de dispersion les plus utilisées sont la variance, l"écart-type et l"écart

interquartile. La variance,notéevx, est la valeur moyenne des carrés des écarts entre les données et la moyenne : v x=1n nå i=1(xi¯x)2.L"écart-type,notéesx, est la racine carré de la variance :sx=pv x. L"écart interquartileest la différence entre le troisième et le premier quartile :Q3Q1, où le premier quartileQ1(respectivement, le troisième quartileQ3) est la médiane des donnéesMedx).

1.2.2 Statistiques d"ordre et quantiles

Etant donné une série de données unidimensionnellesx1,...,xn, on s"intéresse souvent à la

plus petite valeur min ixiou à la plus grande valeur maxixiprise par lesxi. En statistique, on utilise les notations x (1)=min1inxi,x

(n)=max1inxi,et on les appellepr emièreet dernièr estatistiques d"or dre. Plus généralement, on définit la

statistique d"ordre de rangk, notéex(k), comme lakèmeplus petite valeur parmix1,...,xn. Plus précisément, soit(i1,...,in)une permutation (il peut y en avoir plusieurs) des indices (1,...,n)qui classe les données dans l"ordre croissant : x i1xi2...xin.

On appelle alors

statistique d"or drekla valeurx(k)=xik. Pour toute valeura2[0,1], on appellequantile d"or drea, notéqxa, de la sériex1,...,xn, la statistique d"ordrex(m)avecm= [an]. En utilisant la notion de quantile, on peut redéfinir les quartiles et la médiane comme suit : Q

1=qx0.25,Medx=qx0.5,Q3=qx0.75.

En pratique, ces définitions de quartiles et médiane conduisent vers des résultats qui dif-

fèrent légèrement de ceux obtenus par la première définition, mais généralement la diffé-

rence n"est pas importante et décroît lorsque la taillende la série augmente. Section 1.2 Statistiques d"une série numérique unidimensionnelle131.2.3 Statistiques de forme

Les deux statistiques de forme les plus utilisées sont le coefficient d"asymétrie et le coefficient

d"aplatissement. Le coef ficientd"asymétrie (skewness) , notéeax, et lecoef ficientd"aplatisse - ment (kurtosis) , notéebx, sont définis par : a x=1ns

3xnå

i=1(xi¯x)3,b x=3+1ns

4xnå

i=1(xi¯x)4.On peut facilement vérifier que le coefficient d"asymétrie de toute série numérique symé-

FIGURE1.3 -Exemples de répartitions asymétriques : le coefficient d"asymétrie est positive pour la

distribution à gauche et négative pour celle de droite.

trique est nul. (On dit qu"une série numérique est symétrique par rapport à un nombre réel

mu, si pour touta>0 la fréquence de la valeurm+adans la série est égale à celle dema. On peut également vérifier que le coefficient d"aplatissement tend vers zéro lorsquen!¥

si la série numérique représente des réalisations indépendantes de la loi gaussienneN(0,1).

1.2.4 Box plots (Boîtes à moustaches)

Un résumé simple et pratique de la répartition d"une sériex1,...,xnest donné par le quin-

tuplé(A,Q1,Medx,Q3,B), où AetBreprésentent les limites inférieure et supérieure de l"intervalle en dehors duquel les données sont considérées comme aberrantes (on les appelle aussi atypiques ou des outliers). Q1etQ3sont respectivement le premier et le troisième quartile.

Medxest la médiane de l"échantillon.

Ce quintuplé est utilisé pour construire le

diagramme en boîte ou à moustaches que nous ap- pellerons désormais boxplot . La forme générale d"un boxplot est montrée dans la Figure 1.4. Les valeursAetBsont déterminées par les formules

A=minn

x i:xiQ11.5(Q3Q1)o

B=maxn

x i:xiQ3+1.5(Q3Q1)o

Si la série numérique a une répartition normale (Gaussienne), la probabilité qu"une valeur

de la série se trouve en dehors de l"intervalle[A,B]est de 0.7%.

14Éléments de statistique descriptive Chapitre 1FIGURE1.4 -La forme typique d"une boîte à moustaches (ou boxplot), le rectangle bleu étant la boîte

et les segments[A,Q1]et[Q3,B]étant les moustaches. Pour compléter le boxplot, on fait apparaître les valeurs aberrantes. Toutes les valeurs qui se trouvent en dehors de l"intervalle[A,B]sont désignées par un symbole (souvent par une étoile). Dans l"exemple de la Fig. 1.4, il n"y a pas de valeur aberrante.

Pour interpréter un boxplot, il faut noter que

la moitié des valeurs de la série se trouvent entreQ1etQ3, c"est-à-dire dans la boîte du boxplot, la moitié des valeurs de la série se trouvent à gauche de la médiane, s"il n"y a pas de valeurs aberrantes, toutes les valeurs de la série se trouvent entreAetB. Les boxplots sont pratiques pour comparer deux séries statistiques.

1.3 Statistiques et représentations graphiques de deux séries nu-

mériques Considérons maintenant le cas de deux séries numériquesx1,...,xnety1,...,yncorrespon- dant aux valeurs de deux variables prélevées sur le même individu. Par exemple,xietyi peuvent constituer la taille et le poids d"une personne, la température moyenne et le niveau de pollution à Paris un jour donné,...

1.3.1 Covariance et corrélation

La statistique la plus utilisée dans le contexte de deux séries numériques est la corrélation.

Pour la définir, la notion de covariance doit être introduite. On appelle covariance de sséries numériquesx1,...,xnety1,...,ynla valeur s xy=1n nå i=1(xi¯x)(yi¯y),où ¯xet¯ysont respectivement la moyenne desxiet celle desyi.

On appelle

coef ficientcorrélation ou coef ficientcorrélation linéair e des séries numériques x

1,...,xnety1,...,ynla valeur

r xy=sxys xsy,oùsxetsysont respectivement l"écart-type desxiet celui desyi. Par convention, on pose r xy=0 si au moins l"un des deux écart-typessx,syest nul. Proposition 1.1.Le coefficient de corrélation est toujours entre1et+1:

1rxy1.

Section 1.3 Statistiques et représentations graphiques de deux séries numériques15De plus,jrxyj=1si et seulement si les séries x1,...,xnet y1,...,ynsont liées par une relation

affine, c"est-à-dire x i=ayi+b pour tout i=1,...,n. Démonstration.En utilisant l"inégalité de Cauchy-Schwarz, on vérifie que jsxyj 1n nå i=1j(xi¯x)(yi¯y)j 1n nå i=1(xi¯x)2nå i=1(yi¯y)2 12 =sxsy. Cela implique que le coefficient de corrélationrxy=sxy/(sxsy)est toujours entre1 et+1.

De plus, l"inégalité de Cauchy-Schwarz est une égalité si et seulement sixi¯x=a(yi¯y),

ce qui entraîne la seconde assertion de la proposition.1.3.2 Nuage de points et droite de régression

Supposons que l"on dispose de deux séries numériquesx1,...,xnety1,...,ynreprésentant les valeurs de deux variables prélevées surnindividus. Il est naturel et pratique de repré- senter ces données sous forme d"un nuage de points . Il s"agit de représenter par un symbole (losange, dans l"exemple de la Fig. 4.1) lesnpoints de coordonnées(xi,yi).

A titre d"exemple, considérons les données présentées dans la Table 1.1. Ces données repré-

sentent deux variables dont les valeurs sont enregistrées pourn=38 individus. Les indivi- dus sont des pays, alors que les deux variablesXetYsont respectivement le PIB (produit intérieur brut) par habitant et la consommation d"énergie par habitant. Le nuage de point

de ces données est affiché dans la partie haute de la Figure 4.1. Dans ce contexte, l"identité

des individus représente un intérêt (cela n"est pas toujours le cas). Il est alors pratique de

marquer à côté de chaque point du nuage une chaîne de caractère permettant l"identification

de l"individu représenté par le point. C"est ce qui est fait dans la partie basse de la Fig. 4.1.0

2 4 6 8 10 0 1 2quotesdbs_dbs19.pdfusesText_25

[PDF] [PDF] Statistique Numérique et Analyse des Données

Statistique Numérique et Analyse

Arnak DALALYAN

Septembre 2011

Table des matières

1 Éléments de statistique descriptive 9

1.1 Répartition d"une série numérique unidimensionnelle . . . . . . . . . . . . . .

1.2 Statistiques d"une série numérique unidimensionnelle . . . . . . . . . . . . . .

1.3 Statistiques et représentations graphiques de deux séries numériques . . . . .

1.4 Résumé du Chapitre 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2 Analyse des données multivariées 21

2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2 Exemple : billets suisses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.3 La théorie de l"Analyse en Composantes Principales . . . . . . . . . . . . . . .

2.4 Représentations graphiques et interprétation . . . . . . . . . . . . . . . . . . .

2.5 Résumé du Chapitre 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3 Rappel des bases de la statistique paramétrique 35

3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.2 Modèle statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.3 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.4 Intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.5 Test d"hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.7 Résumé du Chapitre 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4 Régression linéaire multiple 55

4.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.2 Lois associées aux échantillons gaussiens . . . . . . . . . . . . . . . . . . . . .

4.3 Le modèle gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.4 Régression linéaire multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.6 Résumé du Chapitre 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5 Tests d"adéquation 73

5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.2 Tests du chi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.3 Test de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.4 Résumé du Chapitre 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4Table des matières Chapitre 06 Tables numériques 83

6.1 Quantiles de la loi normale centrée réduite . . . . . . . . . . . . . . . . . . . .

6.2 Table de la loi du khi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.3 Table de la loi de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.4 Quantiles pour le test de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . .

Table des figures

1.1 Histogrammes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2 Fonction de répartition empirique . . . . . . . . . . . . . . . . . . . . . . . . .

1.3 Répartitions asymétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.4 Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.5 Nuage de points . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.6 Nuage de points pour les données transformées . . . . . . . . . . . . . . . . .

1.7 Nuage de point et droite de régression . . . . . . . . . . . . . . . . . . . . . . .

1.8 QQ-plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.1 1000 Francs Suisses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2 Billets suisses : boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.3 Billets Suisses : matrice de scatter plots . . . . . . . . . . . . . . . . . . . . . . .

2.4 Billets suisses : projection des individus . . . . . . . . . . . . . . . . . . . . . .

2.5 Billets suisses : scree-graph et cercle des corrélations . . . . . . . . . . . . . . .

3.1 La log-vraisemblance du modèle de Bernoulli . . . . . . . . . . . . . . . . . . .

3.2 La log-vraisemblance du modèle exponentielle . . . . . . . . . . . . . . . . . .

3.3 La log-vraisemblance du modèle Uniforme . . . . . . . . . . . . . . . . . . . .

3.4 Intervalles de confiance pour le modèle de Bernoulli . . . . . . . . . . . . . . .

3.5 Les quantiles de la loiN(0,1). . . . . . . . . . . . . . . . . . . . . . . . . . . .46

4.1 Données de pluie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.2 La répartition des données du taux d"alcool . . . . . . . . . . . . . . . . . . . .

4.3 Données de pluie : droite de régression . . . . . . . . . . . . . . . . . . . . . .

5.1 Le test de Kolmogorov s"appuie sur la distance entre fonction de répartition

5.2 Présentation usuelle de la distance de Kolmogorov. . . . . . . . . . . . . . . .

Liste des tableaux

1.1 Données PIB-Consommation d"énergie par habitant . . . . . . . . . . . . . . .

2.1 Données des billets suisses authentiques . . . . . . . . . . . . . . . . . . . . . .

2.2 Données des billets suisses contrefaits . . . . . . . . . . . . . . . . . . . . . . .

4.1 Hauteurs d"arbres dans 3 forêts . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.2 Jour et quantité de pluie par années . . . . . . . . . . . . . . . . . . . . . . . .

6.1 Quantiles de la statistique de Kolmogorov . . . . . . . . . . . . . . . . . . . . .

Éléments de statistique descriptive

1.1 Répartition d"une série numérique unidimensionnelle

10Éléments de statistique descriptive Chapitre 1On va différencier deux types de séries numériques : celles qui représentent une variable

1. On dit qu"une variable est discrète,

1.1.1 Histogramme

1,...,xnégaux àx. Par exemple, l"histogramme de la série numérique

10 8 9 6 5 9 8 7 6 5 6 9 10

8 7 8 7 8 7 6 9 10 9 8 5 9(1.1)