1 Éléments de statistique descriptive 3 5 Testd'hypothèses Liste des tableaux Le but de ce chapitre est d'introduire les statistiques principales et de donner Contrairement à la moyenne, la médiane et le mode ne sont pas toujours uniques Pour comprendre ce qu'apportent les méthodes d'analyse de données,
Previous PDF | Next PDF |
[PDF] Chapitre 1 – Présentation de lanalyse des données I Statistique
Cours de Mme Chevalier Chapitre 1 – Présentation de l'analyse des données I Statistique descriptive et statis- Méthodes descriptives : pas d'hypothèses probabi- listes, pas de possibilité Hypothèses probabilistes restrictives sur ces va-
[PDF] Cours de Statistiques niveau L1-L2 - Archive ouverte HAL
7 mai 2018 · 1 Statistiques descriptives 2 Introduction à la théorie des probabilités 3 Estimation paramétrique 4 Introduction aux tests d'hypothèse
[PDF] Principes et Méthodes Statistiques
7 1 1 Loi de probabilité d'une variable aléatoire Chapitre 1 - Introduction ( par exemple on ne sait pas prévoir avec certitude les cours de la bourse ou les pannes La statistique descriptive, statistique exploratoire ou analyse des données, millions d'électeurs et la variable est la personne ou la liste pour laquelle
[PDF] STATISTIQUE DESCRIPTIVE
CHAPITRE 1 Page 3 STATISTIQUE DESCRIPTIVE 1 MÉTHODE STATISTIQUE 1 1 Puis s'est développé le calcul des probabilités et des méthodes statistiques sont savoir si deux populations sont comparables (tests d'hypothèses) Lorsque la variable ne se prête pas à des valeurs numériques, elle est dite
[PDF] TD n° 1 STATISTIQUE DESCRIPTIVE 7 13 8 10 9 12 10 8 9 10 6 14
A4 a) En utilisant les touches statistiques de votre calculatrice, déterminer à partir polycopié du chapitre 1 indiquées ci-dessous : Un arrangement où l' ordre de présentation des éléments n'est pas pris en considération cette donnée comme probabilité de vendre 4 gâteaux dans une même paramètres descriptifs?
[PDF] Statistiques descriptives et exercices
description se fait à travers la présentation des données (la plus synthétique possible), leur Analyse des données (outils scientifiques permettant de résumer un ensemble de Les statistiques descriptives visent à étudier les caractéristiques d'un ensemble d'ob- Pour le calcul, on utilise (voir Chapitre 2, Théorème 1)
[PDF] Statistique Numérique et Analyse des Données
1 Éléments de statistique descriptive 3 5 Testd'hypothèses Liste des tableaux Le but de ce chapitre est d'introduire les statistiques principales et de donner Contrairement à la moyenne, la médiane et le mode ne sont pas toujours uniques Pour comprendre ce qu'apportent les méthodes d'analyse de données,
[PDF] Analyse statistique des donn´ees dexpression - Institut de
14 2 Description statistique élémentaire 17 1 Introduction permet le traitement et l'analyse d'ensembles de données tr`es volumineux Méthodes statistiques dites inférentielles et de modélisation : tests, tests Ce déroulement pédagogique linéaire ne doit pas faire perdre de vue que la réalité de type probabiliste
[PDF] Statistique 1 - FOAD - MOOC
De la donnée à la connaissance : traitement, analyse et transmission Élément 424b Introduction à la statistique descriptive Prof Marie-Hélène de Sède-
[PDF] Cours de Statistique Descriptive
L'objectif de la Statistique Descriptive est de décrire de façon synthétique et parlante des données 2 Analyse descriptive univariée 2 1 Vocabulaire 1 On appelle population un ensemble Ces données seront souvent utilisées dans ce chapitre peut, entre autre méthode, nous permettre d'approcher au mieux le prix
[PDF] Chapitre 13 Quadrilatères. Sylvain DUCHET http://epsilon.2000.free.fr. 1 / 3. QUADRILATERES. 1) Définitions définitions. Un quadrilatère est une f
[PDF] Chapitre 23 : Triangles et quadrilatères particuliers. I Triangles particuliers. 1) Ce qu'il faut savoir. Triangle isocèle. Triangle équilatéral. Déf
[PDF] chapitre 6 candide lecture méthodique
[PDF] Chapitre 8 Relations trigonométriques dans le triangle rectangle. On considère un triangle ABC rectangle en C. On appelle a et b les mesures respect
[PDF] CHAPITRE G2 DROITES PARALLÈLES ET PERPENDICULAIRES ... Deux droites sont perpendiculaires elles sont sécantes en formant un angle droit.[PDF] droite
[PDF] Chapter 1
[PDF] Chapter 27 The Americans
[PDF] Characteristics of UK education system
[PDF] charles baudelaire écrits sur l'art
[PDF] Charlie caught a big fish
[PDF] Chart pattern recognition Python
[PDF] charte de la diversité france
[PDF] chartist trading
[PDF] Château de Chenonce...
Statistique Numérique et Analyse
des DonnéesArnak DALALYAN
Septembre 2011
Table des matières
1 Éléments de statistique descriptive 9
1.1 Répartition d"une série numérique unidimensionnelle . . . . . . . . . . . . . .
91.2 Statistiques d"une série numérique unidimensionnelle . . . . . . . . . . . . . .
111.3 Statistiques et représentations graphiques de deux séries numériques . . . . .
141.4 Résumé du Chapitre 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
182 Analyse des données multivariées 21
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
212.2 Exemple : billets suisses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
222.3 La théorie de l"Analyse en Composantes Principales . . . . . . . . . . . . . . .
232.4 Représentations graphiques et interprétation . . . . . . . . . . . . . . . . . . .
272.5 Résumé du Chapitre 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
303 Rappel des bases de la statistique paramétrique 35
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
353.2 Modèle statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
363.3 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
373.4 Intervalle de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
433.5 Test d"hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
473.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
513.7 Résumé du Chapitre 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
514 Régression linéaire multiple 55
4.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
554.2 Lois associées aux échantillons gaussiens . . . . . . . . . . . . . . . . . . . . .
594.3 Le modèle gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
604.4 Régression linéaire multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
654.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
714.6 Résumé du Chapitre 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
715 Tests d"adéquation 73
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
735.2 Tests du chi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
735.3 Test de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
765.4 Résumé du Chapitre 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
804Table des matières Chapitre 06 Tables numériques 83
6.1 Quantiles de la loi normale centrée réduite . . . . . . . . . . . . . . . . . . . .
836.2 Table de la loi du khi-deux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
856.3 Table de la loi de Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
866.4 Quantiles pour le test de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . .
87Table des figures
1.1 Histogrammes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
111.2 Fonction de répartition empirique . . . . . . . . . . . . . . . . . . . . . . . . .
111.3 Répartitions asymétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
131.4 Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
141.5 Nuage de points . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
151.6 Nuage de points pour les données transformées . . . . . . . . . . . . . . . . .
161.7 Nuage de point et droite de régression . . . . . . . . . . . . . . . . . . . . . . .
161.8 QQ-plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
172.1 1000 Francs Suisses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
222.2 Billets suisses : boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
232.3 Billets Suisses : matrice de scatter plots . . . . . . . . . . . . . . . . . . . . . . .
242.4 Billets suisses : projection des individus . . . . . . . . . . . . . . . . . . . . . .
272.5 Billets suisses : scree-graph et cercle des corrélations . . . . . . . . . . . . . . .
293.1 La log-vraisemblance du modèle de Bernoulli . . . . . . . . . . . . . . . . . . .
413.2 La log-vraisemblance du modèle exponentielle . . . . . . . . . . . . . . . . . .
423.3 La log-vraisemblance du modèle Uniforme . . . . . . . . . . . . . . . . . . . .
433.4 Intervalles de confiance pour le modèle de Bernoulli . . . . . . . . . . . . . . .
453.5 Les quantiles de la loiN(0,1). . . . . . . . . . . . . . . . . . . . . . . . . . . .46
4.1 Données de pluie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
584.2 La répartition des données du taux d"alcool . . . . . . . . . . . . . . . . . . . .
614.3 Données de pluie : droite de régression . . . . . . . . . . . . . . . . . . . . . .
705.1 Le test de Kolmogorov s"appuie sur la distance entre fonction de répartition
empirique et théorique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 795.2 Présentation usuelle de la distance de Kolmogorov. . . . . . . . . . . . . . . .
80Liste des tableaux
1.1 Données PIB-Consommation d"énergie par habitant . . . . . . . . . . . . . . .
192.1 Données des billets suisses authentiques . . . . . . . . . . . . . . . . . . . . . .
322.2 Données des billets suisses contrefaits . . . . . . . . . . . . . . . . . . . . . . .
334.1 Hauteurs d"arbres dans 3 forêts . . . . . . . . . . . . . . . . . . . . . . . . . . .
564.2 Jour et quantité de pluie par années . . . . . . . . . . . . . . . . . . . . . . . .
586.1 Quantiles de la statistique de Kolmogorov . . . . . . . . . . . . . . . . . . . . .
871
Éléments de statistique descriptive
Le but de ce chapitre est de présenter les outils graphiques les plus répandus de la statis- tique descriptive. On considérera les cas d"une série numérique unidimensionnelle et bidi- mensionnelle.Avant de rentrer dans le vif du sujet, apportons une petite précision à une idée très large-
ment répandue, selon laquelle le but de la discipline statistique est d"analyser des donnéesissues d"une expérience à caractère aléatoire. Cela sous-entend qu"il n"est pas possible ou
qu"il n"est pas utile d"appliquer la méthodologie statistique aux données recueillies par unprocédé déterministe (non aléatoire). Cette une déduction erronée. La bonne définition de
l"objectif de la Statistique en tant que discipline scientifique, à notre avis, serait d"explorerles "propriétés fréquentielles» d"un jeu de données. Par "propriétés fréquentielles», on com-
prend les propriétés qui restent invariantes par toute transformation des données (comme, par exemple, la permutation) qui ne modifie pas la fréquence des résultats. Le but de ce chapitre est d"introduire les statistiques principales et de donner un aperçu des outils graphiques les plus utilisés.1.1 Répartition d"une série numérique unidimensionnelle
Supposons que les données qu"on a à notre disposition représententnvaleurs réelles -notéesx1,...,xn- constituant les résultats d"une certaine expérience répétéenfois. Des
exemples de source de telles données sont : les sondages, les expériences scientifiques (phy- siques, chimiques, médicales,...), les enregistrements historiques (météorologiques, socio-économiques,...). Dans certains cas, ces données sont volumineuses et difficiles à interpréter.
On a alors besoin de les résumer et de trouver des outils pertinents pour les visualiser.Afin que l"analyse statistique d"une série numérique ait un sens, il faut que les différents
éléments de cette série représentent la même quantité mesurée sur des entités différentes.
Par exemple,x1,...,xnpeuvent être les hauteurs denimmeubles choisis au hasard à Paris,ou les températures journalières moyennes à Paris enregistrées au cours de l"année 2009,
etc. On dit alors quex1,...,xnsont les valeurs d"une variable (statistique) observées surn individus.10Éléments de statistique descriptive Chapitre 1On va différencier deux types de séries numériques : celles qui représentent une variable
discrète et celles qui représentent une variable continue1. On dit qu"une variable est discrète,
d"être rigoureuse, mais cela n"est en général pas très gênant. Dans les deux exemples donnés
au paragraphe précédent, les variables "hauteur d"immeuble» et "température journalière
moyenne» sont continues. Si au lieu de mesurer la hauteur d"un immeuble, on comptait le nombre d"étages, ce serait une variable discrète.1.1.1 Histogramme
Pour les séries numériques représentantes une variable discrète, on définit l"histogramme
comme la fonctionh:R!Nqui à chaquex2Rassocie le nombre d"éléments dans la série x1,...,xnégaux àx. Par exemple, l"histogramme de la série numérique
10 8 9 6 5 9 8 7 6 5 6 9 10
8 7 8 7 8 7 6 9 10 9 8 5 9(1.1)
est tracé dans la Figure 1.1 (à gauche). Une approche alternative consiste à définirh(x)comme la proportion des éléments dans la série égaux àx. On utilise alors la forme ana-
lytique h(x) =1n nåi=11(xi=x).Dans le cas où la série numérique qu"on cherche à analyser est continue, on commence par
choisir une partition deRen un nombre fini d"intervalles :I0,I1,...,Ik. Ayant fixé la parti- tion, on définit l"histogramme de la sériex1,...,xncomme la fonctionh:R!R+donnée par la formuleh(x) =njnjIjj, six2Ij,oùnjest le nombre d"éléments de la série qui se trouvent dans lejème intervalleIjde la
partition etjIjjest la longueur de l"intervalleIj. Le choix de la partition est une question délicate que l"on n"approfondira pas ici. Dans la plupart des cas, on choisit une partition uniforme (c"est-à-dire, tous lesIjsont de même longueur) d"un intervalle contenant toutes les valeurs de la série numérique. De plus, on essaye de faire en sorte qu"il y ait au moins 5 observations dans chaque intervalle non-vide. Par exemple, l"histogramme de la série numérique0.11 0.81 0.94 0.62 0.50 0.29 0.48 0.17 0.26 0.55
0.68 0.17 0.28 0.57 0.98 0.77 0.56 0.49 0.31 0.89
0.76 0.39 0.64 0.05 0.91 0.78 0.59 0.79 0.07 0.86(1.2)
est tracé dans la Figure 1.1 (à droite).1.1.2 Fonction de répartition empirique
Une représentation alternative des fréquences des valeurs contenues dans une série numé-rique est la fonction de répartition, appelée également histogramme cumulé. Pour unx2R,1. Le termevariable continuen"est pas très bien choisi, mais cela ne pose pas de problème majeur.
Section 1.2 Statistiques d"une série numérique unidimensionnelle11FIGURE1.1 -Exemples d"histogrammes. A gauche : l"histogramme de la série discrète (1.1). A
droite : l"histogramme de la série (1.2).FIGURE1.2 -Fonction de répartition empirique (FDRE). A gauche : la FDRE de la série discrète (1.1).
A droite : la FDRE de la série (1.2). On voit bien que c"est une fonction en escalier croissante, qui vaut
0 sur l"intervalle]¥,minixi[et qui vaut 1 sur l"intervalle]maxixi,+¥[.
la valeur enxde la fonction de répartition d"une série numériquex1,...,xnest la proportion des éléments de la série inférieurs ou égaux àx, c"est-à-dire :Fn(x) =1n
nåi=11(xix).L"avantage de la fonction de répartition, comparé à l"histogramme, est que sa définition est
identique dans le cas d"une variable discrète et dans le cas d"une variable continue.1.2 Statistiques d"une série numérique unidimensionnelle
On appelle
une statistique toute f onctionqui associe aux données x1,...,xnun vecteur S(x1,...,xn)2Rp. On utilise les statistiques pour résumer les données.1.2.1 Statistiques de tendance centrale et de dispersion
Les trois statistiques de tendance centrale les plus utilisées sont la moyenne, la médiane et le
mode. On les appelle également les statistiques de position.12Éléments de statistique descriptive Chapitre 1La moyenne,notée¯x, est définie par :
x=1n nå i=1x i.La médiane,notéeMedx, est un nombre réel tel qu"au moins la moitié des données sont Medxet au moins la moitié des données sontMedx. Le mode,notéModex, est la valeur la plus fréquente à l"intérieur de l"ensemble des don- nées. Contrairement à la moyenne, la médiane et le mode ne sont pas toujours uniques.Les trois statistiques de dispersion les plus utilisées sont la variance, l"écart-type et l"écart
interquartile. La variance,notéevx, est la valeur moyenne des carrés des écarts entre les données et la moyenne : v x=1n nå i=1(xi¯x)2.L"écart-type,notéesx, est la racine carré de la variance :sx=pv x. L"écart interquartileest la différence entre le troisième et le premier quartile :Q3Q1, où le premier quartileQ1(respectivement, le troisième quartileQ3) est la médiane des données1.2.2 Statistiques d"ordre et quantiles
Etant donné une série de données unidimensionnellesx1,...,xn, on s"intéresse souvent à la
plus petite valeur min ixiou à la plus grande valeur maxixiprise par lesxi. En statistique, on utilise les notations x (1)=min1inxi,x(n)=max1inxi,et on les appellepr emièreet dernièr estatistiques d"or dre. Plus généralement, on définit la
statistique d"ordre de rangk, notéex(k), comme lakèmeplus petite valeur parmix1,...,xn. Plus précisément, soit(i1,...,in)une permutation (il peut y en avoir plusieurs) des indices (1,...,n)qui classe les données dans l"ordre croissant : x i1xi2...xin.On appelle alors
statistique d"or drekla valeurx(k)=xik. Pour toute valeura2[0,1], on appellequantile d"or drea, notéqxa, de la sériex1,...,xn, la statistique d"ordrex(m)avecm= [an]. En utilisant la notion de quantile, on peut redéfinir les quartiles et la médiane comme suit : Q1=qx0.25,Medx=qx0.5,Q3=qx0.75.
En pratique, ces définitions de quartiles et médiane conduisent vers des résultats qui dif-fèrent légèrement de ceux obtenus par la première définition, mais généralement la diffé-
rence n"est pas importante et décroît lorsque la taillende la série augmente. Section 1.2 Statistiques d"une série numérique unidimensionnelle131.2.3 Statistiques de formeLes deux statistiques de forme les plus utilisées sont le coefficient d"asymétrie et le coefficient
d"aplatissement. Le coef ficientd"asymétrie (skewness) , notéeax, et lecoef ficientd"aplatisse - ment (kurtosis) , notéebx, sont définis par : a x=1ns3xnå
i=1(xi¯x)3,b x=3+1ns4xnå
i=1(xi¯x)4.On peut facilement vérifier que le coefficient d"asymétrie de toute série numérique symé-
FIGURE1.3 -Exemples de répartitions asymétriques : le coefficient d"asymétrie est positive pour la
distribution à gauche et négative pour celle de droite.trique est nul. (On dit qu"une série numérique est symétrique par rapport à un nombre réel
mu, si pour touta>0 la fréquence de la valeurm+adans la série est égale à celle dema. On peut également vérifier que le coefficient d"aplatissement tend vers zéro lorsquen!¥si la série numérique représente des réalisations indépendantes de la loi gaussienneN(0,1).
1.2.4 Box plots (Boîtes à moustaches)
Un résumé simple et pratique de la répartition d"une sériex1,...,xnest donné par le quin-
tuplé(A,Q1,Medx,Q3,B), où AetBreprésentent les limites inférieure et supérieure de l"intervalle en dehors duquel les données sont considérées comme aberrantes (on les appelle aussi atypiques ou des outliers). Q1etQ3sont respectivement le premier et le troisième quartile.Medxest la médiane de l"échantillon.
Ce quintuplé est utilisé pour construire le
diagramme en boîte ou à moustaches que nous ap- pellerons désormais boxplot . La forme générale d"un boxplot est montrée dans la Figure 1.4. Les valeursAetBsont déterminées par les formulesA=minn
x i:xiQ11.5(Q3Q1)oB=maxn
x i:xiQ3+1.5(Q3Q1)oSi la série numérique a une répartition normale (Gaussienne), la probabilité qu"une valeur
de la série se trouve en dehors de l"intervalle[A,B]est de 0.7%.14Éléments de statistique descriptive Chapitre 1FIGURE1.4 -La forme typique d"une boîte à moustaches (ou boxplot), le rectangle bleu étant la boîte
et les segments[A,Q1]et[Q3,B]étant les moustaches. Pour compléter le boxplot, on fait apparaître les valeurs aberrantes. Toutes les valeurs qui se trouvent en dehors de l"intervalle[A,B]sont désignées par un symbole (souvent par une étoile). Dans l"exemple de la Fig. 1.4, il n"y a pas de valeur aberrante.Pour interpréter un boxplot, il faut noter que
la moitié des valeurs de la série se trouvent entreQ1etQ3, c"est-à-dire dans la boîte du boxplot, la moitié des valeurs de la série se trouvent à gauche de la médiane, s"il n"y a pas de valeurs aberrantes, toutes les valeurs de la série se trouvent entreAetB. Les boxplots sont pratiques pour comparer deux séries statistiques.1.3 Statistiques et représentations graphiques de deux séries nu-
mériques Considérons maintenant le cas de deux séries numériquesx1,...,xnety1,...,yncorrespon- dant aux valeurs de deux variables prélevées sur le même individu. Par exemple,xietyi peuvent constituer la taille et le poids d"une personne, la température moyenne et le niveau de pollution à Paris un jour donné,...1.3.1 Covariance et corrélation
La statistique la plus utilisée dans le contexte de deux séries numériques est la corrélation.
Pour la définir, la notion de covariance doit être introduite. On appelle covariance de sséries numériquesx1,...,xnety1,...,ynla valeur s xy=1n nå i=1(xi¯x)(yi¯y),où ¯xet¯ysont respectivement la moyenne desxiet celle desyi.On appelle
coef ficientcorrélation ou coef ficientcorrélation linéair e des séries numériques x1,...,xnety1,...,ynla valeur
r xy=sxys xsy,oùsxetsysont respectivement l"écart-type desxiet celui desyi. Par convention, on pose r xy=0 si au moins l"un des deux écart-typessx,syest nul. Proposition 1.1.Le coefficient de corrélation est toujours entre1et+1:1rxy1.
Section 1.3 Statistiques et représentations graphiques de deux séries numériques15De plus,jrxyj=1si et seulement si les séries x1,...,xnet y1,...,ynsont liées par une relation
affine, c"est-à-dire x i=ayi+b pour tout i=1,...,n. Démonstration.En utilisant l"inégalité de Cauchy-Schwarz, on vérifie que jsxyj 1n nå i=1j(xi¯x)(yi¯y)j 1n nå i=1(xi¯x)2nå i=1(yi¯y)2 12 =sxsy. Cela implique que le coefficient de corrélationrxy=sxy/(sxsy)est toujours entre1 et+1.De plus, l"inégalité de Cauchy-Schwarz est une égalité si et seulement sixi¯x=a(yi¯y),
ce qui entraîne la seconde assertion de la proposition.1.3.2 Nuage de points et droite de régression
Supposons que l"on dispose de deux séries numériquesx1,...,xnety1,...,ynreprésentant les valeurs de deux variables prélevées surnindividus. Il est naturel et pratique de repré- senter ces données sous forme d"un nuage de points . Il s"agit de représenter par un symbole (losange, dans l"exemple de la Fig. 4.1) lesnpoints de coordonnées(xi,yi).A titre d"exemple, considérons les données présentées dans la Table 1.1. Ces données repré-
sentent deux variables dont les valeurs sont enregistrées pourn=38 individus. Les indivi- dus sont des pays, alors que les deux variablesXetYsont respectivement le PIB (produit intérieur brut) par habitant et la consommation d"énergie par habitant. Le nuage de pointde ces données est affiché dans la partie haute de la Figure 4.1. Dans ce contexte, l"identité
des individus représente un intérêt (cela n"est pas toujours le cas). Il est alors pratique de
marquer à côté de chaque point du nuage une chaîne de caractère permettant l"identification
de l"individu représenté par le point. C"est ce qui est fait dans la partie basse de la Fig. 4.1.0
2 4 6 8 10 0 1 2quotesdbs_dbs19.pdfusesText_25