Études de cas en analyse des données
Je propose ici des analyses en composantes principales et une classification hiérarchique à partir de base données sur les joueurs de hockey regroupés en trios
Analyse en Composantes Principales
Dans le cas particulier o`u le sous-espace est de dimension 1 c'est-`a-dire est un axe
Études de cas en analyse des données
28 jui. 2021 Pour ce faire les principaux modèles utilisés furent (1) l'analyse en composantes principales plus une classification hiérarchique ascendante ...
Analyse en Composantes Principales (ACP)
Représentations graphiques des individus des variables et simultanée ; qualité de représentation. Travaux pratiques de complexité croissante par l'études de
Méthodologie générale dune étude ACP : Généralités concepts et
d'une étude ACP. L'analyse en composante principale ACP (Jolliffe 1986) est une méthode basée sur ... Le cas de plusieurs individus (n individus).
Introduction à lAnalyse en Composantes Principales (ACP)
Composantes Principales (ACP). Résumé. Introduction élémentaire aux techniques factorielles de réduction de dimension lors de l'étude de p variables
Analyse en Composantes Principales
10.3 étude des liaisons entre les variables . L'Analyse en Composantes principales (ACP) fait partie du groupe des méthodes.
Séance 1: Analyse en composantes principales - Révisions
Sébastien Gadat. Séance 1: Analyse en composantes principales Un exemple d'étude : Température de ville par mois ... Cas euclidien M=.
Analyse en composantes principales
13 mar. 2020 Mais ces études préalables simples si elles sont indispensables dans toute étude statistique
Evaluation de la qualité hygiénique des eaux de puits et de sources
l'utilisation d'une analyse en composantes principales (ACP) : Une étude de cas de la région de Fès (MAROC) [Evaluation of hygiènique quality of waters.
1Analyse en Composantes Pr incipales(A CP)
Analyse en Composantes Principales
(ACP)Résumé
Méthode factorielle de réduction de dimension pour l"exploration statistique de données quantitatives complexes. Construction du mo- dèle statistique associé, estimation. Représentations graphiques des individus, des variables et simultanée; qualité de représentation. Travaux pratiquesde complexité croissante par l"études de données de tempér atures puis de données socio-économiques cubiquesRetour au
plan du cour s1 introduction
Lorsqu"on étudie simultanément un nombre important de variables quantita- tives (ne serait-ce que 4!), comment en faire un graphique global? La difficulté vient de ce que les individus étudiés ne sont plus représentés dans un plan, es- pace de dimension 2, mais dans un espace de dimension plus importante (par exemple 4). L"objectif de l"Analyse en Composantes Principales (ACP) est de revenir à un espace de dimension réduite (par exemple 2) en déformant le moins possible la réalité (cf. l" introduction élémentaire à l"ACP ). Il s"agit donc d"obtenir le résumé le plus pertinent possible des données initiales. C"est la matrice des variances-covariances (ou celle des corrélations) qui va permettre de réaliser ce résumé pertinent, parce qu"on analyse essentiellement la dispersion des données considérées. De cette matrice, on va extraire, par un procédé mathématique adéquat, les facteurs que l"on recherche, en petit nombre. Ils vont permettre de réaliser les graphiques désirés dans cet espace de petite dimension (le nombre de facteurs retenus), en déformant le moins possible la configuration globale des individus selon l"ensemble des variables initiales (ainsi remplacées par les facteurs). C"est l"interprétation de ces graphiques qui permettra de comprendre la structure des données analysées. Cette interprétation sera guidée par un certainnombre d"indicateurs numériques et graphiques, appelés aides à l"interpréta-tion, qui sont là pour aider l"utilisateur à faire l"interprétation la plus juste et la
plus objective possible. L"analyse en Composantes Principales (ACP) est un grand classique de l"analyse des données" en France pour l"étude exploratoire ou la compres- sion d"un grand tableaunpde données quantitatives. Le livre de Jolliffe (2002)[ 2 ] en détaille tous les aspects et utilisations de façon exhaustive. Elle est introduite ici comme l"estimation des paramètres d"un modèle, afin de pré- ciser la signification statistique des résultats obtenus. L"ACP est illustrée dans ce chapitre à travers l"étude de données élémentaires. Elles sont constituées des moyennes sur dix ans des températures moyennes mensuelles de 32 villes françaises. La matrice initialeXest donc(3212). Les colonnes sont l"ob- servation à différents instants d"une même variable; elles sont homogènes et il est inutile de les réduire. L"ACP joue dans ce cours un rôle central; cette méthode sert de fondement théorique aux autres méthodes de statistique multidimensionnelle ditesfacto- riellesqui en apparaissent comme des cas particuliers. Cette méthode est donc étudiée en détail et abordée avec différents niveaux de lecture. La première section présente les grands principes de façon très élémentaire, voire intuitive, tandis que les suivantes explicitent les expressions matricielles des résultats. D"un point de vue plus "mathématique", l"ACP correspond à l"approxima- tion d"une matrice(n;p)par une matrice de même dimensions mais de rang q < p(cf.rappels d"algèbre linéaire );qétant souvent de petite valeur 2, 3 pour la construction de graphiques facilement compréhensibles.2 Espaces vectoriels
2.1 Notations
Soitpvariables statistiquesréellesXj(j= 1;:::;p) observées surnindi- vidusi(i= 1;:::;n) affectés des poidswi:8i= 1;:::;n:wi>0etnX
i=1w i= 1 ;8i= 1;:::;n:xj
i=Xj(i);mesure deXjsur leiemeindividu: Ces mesures sont regroupées dans une matriceXd"ordre(np).2Analyse en Composantes Pr incipales(A CP)
X 1X jX p1x 11x j 1x p 1. ..ix 1ix j ix p i. ..nx 1nx jnx pnÀ chaque individuiest associé le vecteurxicontenant lai-ème ligne de Xmise en colonne. C"est un élément d"un espace vectoriel notéEde dimensionp; nous choisissonsRpmuni de la base canoniqueEet d"une métrique de matriceMlui conférant une structure d"espace euclidien : Eest isomorphe à(Rp;E;M);Eest alors appeléespace des individus. À chaque variableXjest associé le vecteurxjcontenant laj-ème co- lonnecentrée(la moyenne de la colonne est retranchée à toute la colonne) deX. C"est un élément d"un espace vectoriel notéFde dimensionn; nous choisissonsRnmuni de la base canoniqueFet d"une métrique de matriceDdiagonale despoidslui conférant une structure d"espace eucli- dien :Fest isomorphe à(Rn;F;D)avecD=diag(w1;:::;wn);Fest alors appeléespace des variables.2.2 Métrique des poids
L"utilisation de la métrique des poids dans l"espace des variablesFdonne un sens très particulier aux notions usuelles définies sur les espaces euclidiens. Ce paragraphe est la clé permettant de fournir les interprétations en termes statistiques des propriétés et résultats mathématiques.Moyenne empirique deXj:x
j=Xej;1n
D=ej0X0D1n:
Barycentre des individus :x=X0D1n:
Matrice des données centrées :X=X1nx
0:Écart-type deXj:j= (xj0Dxj)1=2=
xj D:Covariance deXjetXk:xj0Dxk=
xj;xk D:Matrice des covariances :S=Pn
i=1wi(xix)(xix)0 =X 0DX:Corrélation deXjetXk:hxj;xkiDkxjkDkxkkD= cosD(xj;xk):Attention :Par souci de simplicité des notations, on désigne toujours parxj
les colonnes de la matricecentréeX. On considère donc que des vecteurs "variables" sont toujours centrés. Ainsi, lorsque les variables sont centrées et représentées par des vecteurs de F: lalongueurd"un vecteur représente unécart-type, lecosinusd"un angle entre deux vecteurs représente unecorrélation.2.3 Objectifs
Les objectifs poursuivis par une ACP sont :
la représentation graphique "optimale" des individus (lignes), minimisant les déformations du nuage des points, dans un sous-espaceEqde dimen- sionq(q < p), la représentation graphique des variables dans un sous-espaceFqen ex- plicitant au "mieux" les liaisons initiales entre ces variables, la réduction de la dimension (compression), ou approximation deXpar un tableau de rangq(q < p). Les derniers objectifs permettent d"utiliser l"ACP comme préalable à une autre technique préférant des variables orthogonales (régression linéaire) ou un nombre réduit d"entrées (réseaux neuronaux). Des arguments de type géométrique dans la littérature francophone, ou bien de type statistique avec hypothèses de normalité dans la littérature anglo- saxonne, justifient la définition de l"ACP. Nous adoptons ici une optique in-termédiaire en se référant à un modèle "allégé" car ne nécessitant pas d"hypo-
thèse "forte" sur la distribution des observations (normalité). Plus précisément, l"ACP admet des définitions équivalentes selon que l"on s"attache à la repré- sentation des individus, à celle des variables ou encore à leur représentation simultanée.3 Modèle
Les notations sont celles du paragraphe précédent : Xdésigne le tableau des données issues de l"observation depvariables quantitativesXjsurnindividusidepoidswi, Eest l"espace des individus muni de la base canonique et de la métrique3Analyse en Composantes Pr incipales(A CP)
de matriceM, Fest l"espace des variables muni de la base canonique et de la métrique des poidsD=diag(w1;:::;wn). De façon générale, un modèle s"écrit :Observation=Modèle+Bruit
assorti de différents types d"hypothèses et de contraintes sur le modèle et sur le bruit. En ACP, la matrice des données est supposée être issue de l"observation de nvecteurs aléatoires indépendantsfx1;:::;xng, de même matrice de cova- riance2, mais d"espérances différenteszi, toutes contenues dans un sous- espace affine de dimensionq(q < p)deE. Dans ce modèle,E(xi) =zi est un paramètre spécifique attaché à chaque individuiet appeléeffet fixe, le modèle étant ditfonctionnel. Ceci s"écrit en résumé : fxi;i= 1;:::;ng; nvecteurs aléatoires indépendants deE; x i=zi+"i;i= 1;:::;navecE("i) = 0;var("i) =2; >0inc.rég. et connue,9Aq;sous-espace affine de dim.qdeEtel que8i;zi2Aq(q < p):(1)
Soitz=Pn
i=1wizi. Les hypothèses du modèle entraînent quezappartient à A q. Soit doncEqle sous-espace vectoriel deEde dimensionqtel que : A q=z+Eq: Les paramètres à estimer sont alorsEqetzi;i= 1;:::;n, éventuellement ;ziest la part systématique, oueffet, supposée de rangq; éliminer le bruit revient donc à réduire la dimension. Si leszisont considérés commealéatoires, le modèle est alors ditstruc- turel; on suppose quefx1;:::;xngest un échantillon statistique i.i.d. Les unités statistiques jouent des rôles symétriques, elles ne nous intéressent que pour l"étude des relations entre les variables. On retrouve alors le principe de l"analyse en facteurs (ou en facteurs communs et spécifiques, oufactor analy- sis).3.1 Estimation
PROPOSITION1. - L"estimation des paramètres de (1) est fournie par l"ACP de(X;M;D)c"est-à-dire par la décomposition en valeurs singulières de(X;M;D): c Zq=qX k=11=2 kukvk0=Uq1=2V0q:Preuve
Sans hypothèse sur la distribution de l"erreur, une estimation par les moindres carrés conduit à résoudre le problème : minEq;zi(
nX i=1w ikxizik2M;dim(Eq) =q;ziz2Eq)
:(2)SoitX=X1nx
0la matrice centrée etZla matrice(np)dont les lignes sont
les vecteurs(ziz)0. n X i=1w ikxizik2 M=nX i=1w ikxix+zzik2M+kxzk2
M; le problème ( 2 ) conduit alors à prendre bz=xet devient équivalent à résoudre : min Zn XZM;D;Z2 Mn;p;rang(Z) =qo
:(3) La fin de la preuve est une conséquence immédiate du théorème d"approximation ma- tricielles (cf. rappels d"algèbre linéaire ).2 Lesuksont les vecteurs propresD-orthonormés de la matriceXMX 0D associés aux valeurs propreskrangées par ordre décroissant. Lesvk, appelésvecteurs principaux, sont les vecteurs propresM- orthonormés de la matriceX0DXM=SMassociés aux mêmes valeurs
propres; ils engendrent des s.e.v. de dimension 1 appelés axes principaux.4Analyse en Composantes Pr incipales(A CP)
Les estimations sont donc données par :
bz=x; c Zq=qX k=11=2ukvk0=Uq1=2V0q=X
cPq0; où cPq=VqV0qMest la matrice de projectionM-orthogonale surcEq;
cEq=vectfv1;:::;vqg;
cE2est appelé plan principal;
b zi=cPqxi+x:Remarques
1. Les solutions sont emboîtées pour q= 1;:::;p: E1=vectfv1g E2=vectfv1;v2g E3=vectfv1;v2;v3g :::
2. Les espaces principaux sont uniques sauf, év entuellement,dans le cas de valeurs propres multiples. 3. Si les v ariablesne sont pas homogènes (unités de mesure dif férentes,v a- riances disparates), elles sont préalablement réduites : eX=X1=2où=diag(21;:::;2p);avec2j=Var(Xj) ;
eSest alors la matriceR=1=2S1=2descorrélations.
Sous l"hypothèse que la distribution de l"erreur est gaussienne, une estima- tion par maximum de vraisemblance conduit à la même solution.3.2 Autre définition
On considèrepvariable statistiquescentréesX1;:::;Xp. Unecombinaison linéairede coefficientsfjde ces variables, c=pX j=1f jxj=Xf;définit une nouvelle variable centréeCqui, à tout individui, associe la "me- sure"C(i) = (xix)0f:
PROPOSITION2. - Soientpvariables quantitatives centréesX1;:::;Xpob- servées surnindividus de poidswi; l"ACP de(X;M;D)est aussi la re- cherche desqcombinaisons linéaires normées desXj, non corrélées et dont la somme des variances soit maximale. Les vecteursfk=Mvksont lesfacteurs principaux. Ils permettent de définir les combinaisons linéaires desXjoptimales au sens ci-dessus.Les vecteursck=Xf
ksont lescomposantes principales. Les variablesCkassociées sont centrées, non corrélées et de variancek; ce sont lesvariables principales; cov(Ck;C`) = (Xf k)0DXf `=fk0Sf` =vk0MSMv`=`vk0Mv`=``k: Lesfksont les vecteurs propresM1-orthonormés de la matriceMS.La matrice
C=XF=XMV=U1=2
est la matrice des composantes principales. Les axes définis par les vecteursD-orthonormésuksont appelésaxes factoriels.4 Graphiques
4.1 Individus
Les graphiques obtenus permettent de représenter "au mieux" les distances euclidiennes inter-individus mesurées par la métriqueM.4.1.1 Projection
Chaque individuireprésenté parxiest approché par sa projectionM- orthogonale bziqsur le sous-espacecEqengendré par lesqpremiers vecteurs5Analyse en Composantes Pr incipales(A CP)
principauxfv1;:::;vqg. En notanteiun vecteur de la base canonique deE, la coordonnée de l"individuisurvkest donnée par : xix;vkM= (xix)0Mvk=e0iXMv
k=cki:PROPOSITION3. - Les coordonnées de la projectionM-orthogonale dexixsurcEqsont lesqpremiers élément de lai-ème ligne de la matriceCdes
composantes principales.4.1.2 Qualités
La "qualité globale" des représentations est mesurée par lapart de disper- sion expliquée: r q=trSMcPqtrSM=P q k=1kP p k=1k: Remarque. -La dispersion d"un nuage de points unidimensionnel par rapport à sa moyenne se mesure par la variance. Dans le cas multidimensionnel, la dispersion du nuageNpar rapport à son barycentrexse mesure par l"inertie, généralisation de la variance : I g(N) =nX i=1w ikxixk2 M= X 2M;D=tr(X
0DXM) =tr(SM):
La qualité de la représentation de chaquexiest donnée par le cosinus carré de l"angle qu"il forme avec sa projection : [cos(xix;bziq)]2= cPq(xix) 2Mkxixk2
M=P q k=1(cki)2P p k=1(cki)2: Pour éviter de consulter un tableau qui risque d"être volumineux (nlignes), les étiquettes de chaque individu sont affichées sur les graphiques avec des ca- ractères dont lataille est fonction de la qualité. Un individu très mal représenté est à la limite de la lisibilité.Axe 2 -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 Axe 1 -1001020FIGURE1 -Températures : premier plan des individus.4.1.3 Contributions
Les contributions de chaque individu à l"inertie de leur nuage i=wikxixk2MtrSM=wiPp
k=1(cki)2P p k=1k; ainsi qu"à la variance d"une variable principale ki=wi(cki)2 k; permettent de déceler les observations les plusinfluenteset, éventuellement, aberrantes. Ces points apparaissent visiblement lors du tracé des diagrammes- boîtes parallèles des composantes principales qui évitent ainsi une lecture fas- tidieuse de ce tableau des contributions. En effet, ils se singularisent aussi comme "outliers" ou atypiques hors de la boîte (au delà des moustaches) cor- respondant à une direction principale. Les individus correspondants, considé- rés commeindividus supplémentaires, peuvent être éliminés lors d"une nou- velle analyse.6Analyse en Composantes Pr incipales(A CP)
4.1.4 Individus supplémentaires
Il s"agit de représenter, par rapport aux axes principaux d"une analyse, des individus qui n"ont pas participé aux calculs de ces axes. Soitsun tel vecteur, il doit être centré, éventuellement réduit, puis projeté sur le sous-espace de représentation. Les coordonnées sont fournies par : vk;VqV0qM(sx)M=vk0MVqV0qM(sx) =ek0V0qM(sx):
Les coordonnées d"un individu supplémentaire dans la base des vecteurs prin- cipaux sont donc : V0qM(sx):
4.2 Variables
Les graphiques obtenus permettent de représenter "au mieux" les corréla- tions entre les variables (cosinus des angles) et, si celles-ci ne sont pas réduites, leurs variances (longueurs).4.2.1 Projection
Une variableXjest représentée par la projectionD-orthogonalecQqxjsur le sous-espaceFqengendré par lesqpremiers axes factoriels. La coordonnée dexjsurukest : xj;ukD=xj0Duk=1p
kxj0DXMv k 1p kej0X 0DXMv k=p kvkj: PROPOSITION4. - Les coordonnées de la projectionD-orthogonale dexj sur le sous-espaceFqsont lesqpremiers éléments de laj-ème ligne de la matriceV1=2.4.2.2 Qualité La qualité de la représentation de chaquexjest donnée par le cosinus carré de l"angle qu"il forme avec sa projection : h cos(xj;cQqxj)i 2= cQqxj 2Dkxjk2
D=P q k=1k(vj k)2P p k=1k(vj k)2:4.2.3 Corrélations variables - facteurs
Ces indicateurs aident à l"interprétation des axes factoriels en exprimant les corrélations entre variables principales et initiales. cor(Xj;Ck) = cos(xj;ck) = cos(xj;uk) = xj;ukDkxjkD=p
k jvkj; ce sont les éléments de la matrice1=2V1=2.4.2.4 Cercle des corrélations
Dans le cas de variables réduites
exj=1 jxj; exjD= 1, lesexjsont sur la
sphère unitéSndeF. L"intersectionSn\F2est un cercle centré sur l"origine et de rayon1appelécercle des corrélations. Les projections deexjetxjsont colinéaires, celle de exjétant à l"intérieur du cercle : cQ2exjD= cos(xj;cQ2xj)1:
Ainsi, plus
cQ2exjest proche de ce cercle, meilleure est la qualité de sa repré- sentation. Ce graphique est commode à interpréter à condition de se méfier des échelles, le cercle devenant une ellipse si elles ne sont pas égales. Comme pour les individus, la taille des caractères est aussi fonction de la qualité des représentations.4.3 Biplot
À partir de la décomposition en valeurs singulières de(X;M;D), on re- marque que chaque valeur x j ix j=pX k=1p kukivj k=hU1=2V0ij
i7Analyse en Composantes Pr incipales(A CP)Axe 2
-1.0 -0.5 0.0 0.5 1.0 Axe 1 -1.0-0.50.00.51.0 Axe 3 -1.0 -0.5 0.0 0.5 1.0 Axe 2-1.0-0.50.00.51.0FIGURE2 -Températures : Premier et deuxième plan des variables.s"exprime comme produit scalaire usuel des vecteurs
c i=h U1=2i i etvjou encoreuieth V1=2i j Pourq= 2, la quantitébzijen est une approximation limitée aux deux premiersquotesdbs_dbs17.pdfusesText_23[PDF] etude de cas bnp paribas
[PDF] etude de cas bts ag 2010
[PDF] étude de cas bts diététique
[PDF] etude de cas bts muc corrigé 2007
[PDF] etude de cas business model
[PDF] etude de cas cafe chapuis
[PDF] etude de cas casino
[PDF] etude de cas communication d'entreprise
[PDF] etude de cas communication de crise
[PDF] etude de cas conduite du changement
[PDF] etude de cas cpe corrigé
[PDF] etude de cas croissance demographique et developpement durable en chine
[PDF] etude de cas danone management
[PDF] etude de cas danone pdf