Analyse en Composantes Principales (ACP) PDF

Études de cas en analyse des données

Je propose ici des analyses en composantes principales et une classification hiérarchique à partir de base données sur les joueurs de hockey regroupés en trios

Analyse en Composantes Principales

Dans le cas particulier o`u le sous-espace est de dimension 1 c'est-`a-dire est un axe

Études de cas en analyse des données

28 jui. 2021 Pour ce faire les principaux modèles utilisés furent (1) l'analyse en composantes principales plus une classification hiérarchique ascendante ...

Analyse en Composantes Principales (ACP)

Représentations graphiques des individus des variables et simultanée ; qualité de représentation. Travaux pratiques de complexité croissante par l'études de

Méthodologie générale dune étude ACP : Généralités concepts et

d'une étude ACP. L'analyse en composante principale ACP (Jolliffe 1986) est une méthode basée sur ... Le cas de plusieurs individus (n individus).

Introduction à lAnalyse en Composantes Principales (ACP)

Composantes Principales (ACP). Résumé. Introduction élémentaire aux techniques factorielles de réduction de dimension lors de l'étude de p variables

Analyse en Composantes Principales

10.3 étude des liaisons entre les variables . L'Analyse en Composantes principales (ACP) fait partie du groupe des méthodes.

Séance 1: Analyse en composantes principales - Révisions

Sébastien Gadat. Séance 1: Analyse en composantes principales Un exemple d'étude : Température de ville par mois ... Cas euclidien M=.

Analyse en composantes principales

13 mar. 2020 Mais ces études préalables simples si elles sont indispensables dans toute étude statistique

Evaluation de la qualité hygiénique des eaux de puits et de sources

l'utilisation d'une analyse en composantes principales (ACP) : Une étude de cas de la région de Fès (MAROC) [Evaluation of hygiènique quality of waters.

1Analyse en Composantes Pr incipales(A CP)

Analyse en Composantes Principales

(ACP)

Résumé

Méthode factorielle de réduction de dimension pour l"exploration statistique de données quantitatives complexes. Construction du mo- dèle statistique associé, estimation. Représentations graphiques des individus, des variables et simultanée; qualité de représentation. Travaux pratiquesde complexité croissante par l"études de données de tempér atures puis de données socio-économiques cubiques

Retour au

plan du cour s

1 introduction

Lorsqu"on étudie simultanément un nombre important de variables quantita- tives (ne serait-ce que 4!), comment en faire un graphique global? La difficulté vient de ce que les individus étudiés ne sont plus représentés dans un plan, es- pace de dimension 2, mais dans un espace de dimension plus importante (par exemple 4). L"objectif de l"Analyse en Composantes Principales (ACP) est de revenir à un espace de dimension réduite (par exemple 2) en déformant le moins possible la réalité (cf. l" introduction élémentaire à l"ACP ). Il s"agit donc d"obtenir le résumé le plus pertinent possible des données initiales. C"est la matrice des variances-covariances (ou celle des corrélations) qui va permettre de réaliser ce résumé pertinent, parce qu"on analyse essentiellement la dispersion des données considérées. De cette matrice, on va extraire, par un procédé mathématique adéquat, les facteurs que l"on recherche, en petit nombre. Ils vont permettre de réaliser les graphiques désirés dans cet espace de petite dimension (le nombre de facteurs retenus), en déformant le moins possible la configuration globale des individus selon l"ensemble des variables initiales (ainsi remplacées par les facteurs). C"est l"interprétation de ces graphiques qui permettra de comprendre la structure des données analysées. Cette interprétation sera guidée par un certain

nombre d"indicateurs numériques et graphiques, appelés aides à l"interpréta-tion, qui sont là pour aider l"utilisateur à faire l"interprétation la plus juste et la

plus objective possible. L"analyse en Composantes Principales (ACP) est un grand classique de l"analyse des données" en France pour l"étude exploratoire ou la compres- sion d"un grand tableaunpde données quantitatives. Le livre de Jolliffe (2002)[ 2 ] en détaille tous les aspects et utilisations de façon exhaustive. Elle est introduite ici comme l"estimation des paramètres d"un modèle, afin de pré- ciser la signification statistique des résultats obtenus. L"ACP est illustrée dans ce chapitre à travers l"étude de données élémentaires. Elles sont constituées des moyennes sur dix ans des températures moyennes mensuelles de 32 villes françaises. La matrice initialeXest donc(3212). Les colonnes sont l"ob- servation à différents instants d"une même variable; elles sont homogènes et il est inutile de les réduire. L"ACP joue dans ce cours un rôle central; cette méthode sert de fondement théorique aux autres méthodes de statistique multidimensionnelle ditesfacto- riellesqui en apparaissent comme des cas particuliers. Cette méthode est donc étudiée en détail et abordée avec différents niveaux de lecture. La première section présente les grands principes de façon très élémentaire, voire intuitive, tandis que les suivantes explicitent les expressions matricielles des résultats. D"un point de vue plus "mathématique", l"ACP correspond à l"approxima- tion d"une matrice(n;p)par une matrice de même dimensions mais de rang q < p(cf.rappels d"algèbre linéaire );qétant souvent de petite valeur 2, 3 pour la construction de graphiques facilement compréhensibles.

2 Espaces vectoriels

2.1 Notations

Soitpvariables statistiquesréellesXj(j= 1;:::;p) observées surnindi- vidusi(i= 1;:::;n) affectés des poidswi:

8i= 1;:::;n:wi>0etnX

i=1w i= 1 ;

8i= 1;:::;n:xj

i=Xj(i);mesure deXjsur leiemeindividu: Ces mesures sont regroupées dans une matriceXd"ordre(np).

2Analyse en Composantes Pr incipales(A CP)

X 1X jX p1x 11x j 1x p 1. ..ix 1ix j ix p i. ..nx 1nx jnx pnÀ chaque individuiest associé le vecteurxicontenant lai-ème ligne de Xmise en colonne. C"est un élément d"un espace vectoriel notéEde dimensionp; nous choisissonsRpmuni de la base canoniqueEet d"une métrique de matriceMlui conférant une structure d"espace euclidien : Eest isomorphe à(Rp;E;M);Eest alors appeléespace des individus. À chaque variableXjest associé le vecteurxjcontenant laj-ème co- lonnecentrée(la moyenne de la colonne est retranchée à toute la colonne) deX. C"est un élément d"un espace vectoriel notéFde dimensionn; nous choisissonsRnmuni de la base canoniqueFet d"une métrique de matriceDdiagonale despoidslui conférant une structure d"espace eucli- dien :Fest isomorphe à(Rn;F;D)avecD=diag(w1;:::;wn);Fest alors appeléespace des variables.

2.2 Métrique des poids

L"utilisation de la métrique des poids dans l"espace des variablesFdonne un sens très particulier aux notions usuelles définies sur les espaces euclidiens. Ce paragraphe est la clé permettant de fournir les interprétations en termes statistiques des propriétés et résultats mathématiques.

Moyenne empirique deXj:x

Xej;1n

D=ej0X0D1n:

Barycentre des individus :x=X0D1n:

Matrice des données centrées :X=X1nx

Écart-type deXj:j= (xj0Dxj)1=2=

xj D:

Covariance deXjetXk:xj0Dxk=

xj;xk D:

Matrice des covariances :S=Pn

i=1wi(xix)(xix)0 =X 0DX:

Corrélation deXjetXk:hxj;xkiDkxjkDkxkkD= cosD(xj;xk):Attention :Par souci de simplicité des notations, on désigne toujours parxj

les colonnes de la matricecentréeX. On considère donc que des vecteurs "variables" sont toujours centrés. Ainsi, lorsque les variables sont centrées et représentées par des vecteurs de F: lalongueurd"un vecteur représente unécart-type, lecosinusd"un angle entre deux vecteurs représente unecorrélation.

2.3 Objectifs

Les objectifs poursuivis par une ACP sont :

la représentation graphique "optimale" des individus (lignes), minimisant les déformations du nuage des points, dans un sous-espaceEqde dimen- sionq(q < p), la représentation graphique des variables dans un sous-espaceFqen ex- plicitant au "mieux" les liaisons initiales entre ces variables, la réduction de la dimension (compression), ou approximation deXpar un tableau de rangq(q < p). Les derniers objectifs permettent d"utiliser l"ACP comme préalable à une autre technique préférant des variables orthogonales (régression linéaire) ou un nombre réduit d"entrées (réseaux neuronaux). Des arguments de type géométrique dans la littérature francophone, ou bien de type statistique avec hypothèses de normalité dans la littérature anglo- saxonne, justifient la définition de l"ACP. Nous adoptons ici une optique in-

termédiaire en se référant à un modèle "allégé" car ne nécessitant pas d"hypo-

thèse "forte" sur la distribution des observations (normalité). Plus précisément, l"ACP admet des définitions équivalentes selon que l"on s"attache à la repré- sentation des individus, à celle des variables ou encore à leur représentation simultanée.

3 Modèle

Les notations sont celles du paragraphe précédent : Xdésigne le tableau des données issues de l"observation depvariables quantitativesXjsurnindividusidepoidswi, Eest l"espace des individus muni de la base canonique et de la métrique

3Analyse en Composantes Pr incipales(A CP)

de matriceM, Fest l"espace des variables muni de la base canonique et de la métrique des poidsD=diag(w1;:::;wn). De façon générale, un modèle s"écrit :

Observation=Modèle+Bruit

assorti de différents types d"hypothèses et de contraintes sur le modèle et sur le bruit. En ACP, la matrice des données est supposée être issue de l"observation de nvecteurs aléatoires indépendantsfx1;:::;xng, de même matrice de cova- riance2, mais d"espérances différenteszi, toutes contenues dans un sous- espace affine de dimensionq(q < p)deE. Dans ce modèle,E(xi) =zi est un paramètre spécifique attaché à chaque individuiet appeléeffet fixe, le modèle étant ditfonctionnel. Ceci s"écrit en résumé : fxi;i= 1;:::;ng; nvecteurs aléatoires indépendants deE; x i=zi+"i;i= 1;:::;navecE("i) = 0;var("i) =2; >0inc.rég. et connue,

9Aq;sous-espace affine de dim.qdeEtel que8i;zi2Aq(q < p):(1)

Soitz=Pn

i=1wizi. Les hypothèses du modèle entraînent quezappartient à A q. Soit doncEqle sous-espace vectoriel deEde dimensionqtel que : A q=z+Eq: Les paramètres à estimer sont alorsEqetzi;i= 1;:::;n, éventuellement ;ziest la part systématique, oueffet, supposée de rangq; éliminer le bruit revient donc à réduire la dimension. Si leszisont considérés commealéatoires, le modèle est alors ditstruc- turel; on suppose quefx1;:::;xngest un échantillon statistique i.i.d. Les unités statistiques jouent des rôles symétriques, elles ne nous intéressent que pour l"étude des relations entre les variables. On retrouve alors le principe de l"analyse en facteurs (ou en facteurs communs et spécifiques, oufactor analy- sis).

3.1 Estimation

PROPOSITION1. - L"estimation des paramètres de (1) est fournie par l"ACP de(X;M;D)c"est-à-dire par la décomposition en valeurs singulières de(X;M;D): c Zq=qX k=11=2 kukvk0=Uq1=2V0q:

Preuve

Sans hypothèse sur la distribution de l"erreur, une estimation par les moindres carrés conduit à résoudre le problème : min

Eq;zi(

nX i=1w ikxizik2

M;dim(Eq) =q;ziz2Eq)

:(2)

SoitX=X1nx

0la matrice centrée etZla matrice(np)dont les lignes sont

les vecteurs(ziz)0. n X i=1w ikxizik2 M=nX i=1w ikxix+zzik2

M+kxzk2

M; le problème ( 2 ) conduit alors à prendre bz=xet devient équivalent à résoudre : min Zn XZ

M;D;Z2 Mn;p;rang(Z) =qo

:(3) La fin de la preuve est une conséquence immédiate du théorème d"approximation ma- tricielles (cf. rappels d"algèbre linéaire ).2 Lesuksont les vecteurs propresD-orthonormés de la matriceXMX 0D associés aux valeurs propreskrangées par ordre décroissant. Lesvk, appelésvecteurs principaux, sont les vecteurs propresM- orthonormés de la matriceX

0DXM=SMassociés aux mêmes valeurs

propres; ils engendrent des s.e.v. de dimension 1 appelés axes principaux.

4Analyse en Composantes Pr incipales(A CP)

Les estimations sont donc données par :

bz=x; c Zq=qX k=1

1=2ukvk0=Uq1=2V0q=X

cPq0; où cPq=VqV0qMest la matrice de projection

M-orthogonale surcEq;

Eq=vectfv1;:::;vqg;

E2est appelé plan principal;

b zi=cPqxi+x:

Remarques

1. Les solutions sont emboîtées pour q= 1;:::;p: E

1=vectfv1g E2=vectfv1;v2g E3=vectfv1;v2;v3g :::

2. Les espaces principaux sont uniques sauf, év entuellement,dans le cas de valeurs propres multiples. 3. Si les v ariablesne sont pas homogènes (unités de mesure dif férentes,v a- riances disparates), elles sont préalablement réduites : eX=X

1=2où=diag(21;:::;2p);avec2j=Var(Xj) ;

Sest alors la matriceR=1=2S1=2descorrélations.

Sous l"hypothèse que la distribution de l"erreur est gaussienne, une estima- tion par maximum de vraisemblance conduit à la même solution.

3.2 Autre définition

On considèrepvariable statistiquescentréesX1;:::;Xp. Unecombinaison linéairede coefficientsfjde ces variables, c=pX j=1f jxj=Xf;définit une nouvelle variable centréeCqui, à tout individui, associe la "me- sure"

C(i) = (xix)0f:

PROPOSITION2. - Soientpvariables quantitatives centréesX1;:::;Xpob- servées surnindividus de poidswi; l"ACP de(X;M;D)est aussi la re- cherche desqcombinaisons linéaires normées desXj, non corrélées et dont la somme des variances soit maximale. Les vecteursfk=Mvksont lesfacteurs principaux. Ils permettent de définir les combinaisons linéaires desXjoptimales au sens ci-dessus.

Les vecteursck=Xf

ksont lescomposantes principales. Les variablesCkassociées sont centrées, non corrélées et de variancek; ce sont lesvariables principales; cov(Ck;C`) = (Xf k)0DXf `=fk0Sf` =vk0MSMv`=`vk0Mv`=``k: Lesfksont les vecteurs propresM1-orthonormés de la matriceMS.

La matrice

C=XF=XMV=U1=2

est la matrice des composantes principales. Les axes définis par les vecteursD-orthonormésuksont appelésaxes factoriels.

4 Graphiques

4.1 Individus

Les graphiques obtenus permettent de représenter "au mieux" les distances euclidiennes inter-individus mesurées par la métriqueM.

4.1.1 Projection

Chaque individuireprésenté parxiest approché par sa projectionM- orthogonale bziqsur le sous-espacecEqengendré par lesqpremiers vecteurs

5Analyse en Composantes Pr incipales(A CP)

principauxfv1;:::;vqg. En notanteiun vecteur de la base canonique deE, la coordonnée de l"individuisurvkest donnée par : xix;vk

M= (xix)0Mvk=e0iXMv

k=cki:

PROPOSITION3. - Les coordonnées de la projectionM-orthogonale dexixsurcEqsont lesqpremiers élément de lai-ème ligne de la matriceCdes

composantes principales.

4.1.2 Qualités

La "qualité globale" des représentations est mesurée par lapart de disper- sion expliquée: r q=trSMcPqtrSM=P q k=1kP p k=1k: Remarque. -La dispersion d"un nuage de points unidimensionnel par rapport à sa moyenne se mesure par la variance. Dans le cas multidimensionnel, la dispersion du nuageNpar rapport à son barycentrexse mesure par l"inertie, généralisation de la variance : I g(N) =nX i=1w ikxixk2 M= X 2

M;D=tr(X

0DXM) =tr(SM):

La qualité de la représentation de chaquexiest donnée par le cosinus carré de l"angle qu"il forme avec sa projection : [cos(xix;bziq)]2= cPq(xix) 2

Mkxixk2

M=P q k=1(cki)2P p k=1(cki)2: Pour éviter de consulter un tableau qui risque d"être volumineux (nlignes), les étiquettes de chaque individu sont affichées sur les graphiques avec des ca- ractères dont lataille est fonction de la qualité. Un individu très mal représenté est à la limite de la lisibilité.Axe 2 -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 Axe 1 -1001020FIGURE1 -Températures : premier plan des individus.

4.1.3 Contributions

Les contributions de chaque individu à l"inertie de leur nuage i=wikxixk2

MtrSM=wiPp

k=1(cki)2P p k=1k; ainsi qu"à la variance d"une variable principale ki=wi(cki)2 k; permettent de déceler les observations les plusinfluenteset, éventuellement, aberrantes. Ces points apparaissent visiblement lors du tracé des diagrammes- boîtes parallèles des composantes principales qui évitent ainsi une lecture fas- tidieuse de ce tableau des contributions. En effet, ils se singularisent aussi comme "outliers" ou atypiques hors de la boîte (au delà des moustaches) cor- respondant à une direction principale. Les individus correspondants, considé- rés commeindividus supplémentaires, peuvent être éliminés lors d"une nou- velle analyse.

6Analyse en Composantes Pr incipales(A CP)

4.1.4 Individus supplémentaires

Il s"agit de représenter, par rapport aux axes principaux d"une analyse, des individus qui n"ont pas participé aux calculs de ces axes. Soitsun tel vecteur, il doit être centré, éventuellement réduit, puis projeté sur le sous-espace de représentation. Les coordonnées sont fournies par : vk;VqV0qM(sx)

M=vk0MVqV0qM(sx) =ek0V0qM(sx):

Les coordonnées d"un individu supplémentaire dans la base des vecteurs prin- cipaux sont donc : V

0qM(sx):

4.2 Variables

Les graphiques obtenus permettent de représenter "au mieux" les corréla- tions entre les variables (cosinus des angles) et, si celles-ci ne sont pas réduites, leurs variances (longueurs).

4.2.1 Projection

Une variableXjest représentée par la projectionD-orthogonalecQqxjsur le sous-espaceFqengendré par lesqpremiers axes factoriels. La coordonnée dexjsurukest : xj;uk

D=xj0Duk=1p

kxj0DXMv k 1p kej0X 0DXMv k=p kvkj: PROPOSITION4. - Les coordonnées de la projectionD-orthogonale dexj sur le sous-espaceFqsont lesqpremiers éléments de laj-ème ligne de la matriceV1=2.4.2.2 Qualité La qualité de la représentation de chaquexjest donnée par le cosinus carré de l"angle qu"il forme avec sa projection : h cos(xj;cQqxj)i 2= cQqxj 2

Dkxjk2

D=P q k=1k(vj k)2P p k=1k(vj k)2:

4.2.3 Corrélations variables - facteurs

Ces indicateurs aident à l"interprétation des axes factoriels en exprimant les corrélations entre variables principales et initiales. cor(Xj;Ck) = cos(xj;ck) = cos(xj;uk) = xj;uk

DkxjkD=p

k jvkj; ce sont les éléments de la matrice1=2V1=2.

4.2.4 Cercle des corrélations

Dans le cas de variables réduites

exj=1 jxj; exj

D= 1, lesexjsont sur la

sphère unitéSndeF. L"intersectionSn\F2est un cercle centré sur l"origine et de rayon1appelécercle des corrélations. Les projections deexjetxjsont colinéaires, celle de exjétant à l"intérieur du cercle : cQ2exj

D= cos(xj;cQ2xj)1:

Ainsi, plus

cQ2exjest proche de ce cercle, meilleure est la qualité de sa repré- sentation. Ce graphique est commode à interpréter à condition de se méfier des échelles, le cercle devenant une ellipse si elles ne sont pas égales. Comme pour les individus, la taille des caractères est aussi fonction de la qualité des représentations.

4.3 Biplot

À partir de la décomposition en valeurs singulières de(X;M;D), on re- marque que chaque valeur x j ix j=pX k=1p kukivj k=h

U1=2V0ij

7Analyse en Composantes Pr incipales(A CP)Axe 2

-1.0 -0.5 0.0 0.5 1.0 Axe 1 -1.0-0.50.00.51.0 Axe 3 -1.0 -0.5 0.0 0.5 1.0 Axe 2

-1.0-0.50.00.51.0FIGURE2 -Températures : Premier et deuxième plan des variables.s"exprime comme produit scalaire usuel des vecteurs

c i=h U1=2i i etvjou encoreuieth V1=2i j Pourq= 2, la quantitébzijen est une approximation limitée aux deux premiersquotesdbs_dbs17.pdfusesText_23

[PDF] Analyse en Composantes Principales (ACP)

1Analyse en Composantes Pr incipales(A CP)

Analyse en Composantes Principales

Résumé

Retour au

1 introduction

2 Espaces vectoriels

2.1 Notations

8i= 1;:::;n:wi>0etnX

8i= 1;:::;n:xj

2Analyse en Composantes Pr incipales(A CP)

2.2 Métrique des poids

Moyenne empirique deXj:x

Xej;1n

D=ej0X0D1n:

Barycentre des individus :x=X0D1n:

Matrice des données centrées :X=X1nx

Écart-type deXj:j= (xj0Dxj)1=2=

Covariance deXjetXk:xj0Dxk=

Matrice des covariances :S=Pn

2.3 Objectifs

Les objectifs poursuivis par une ACP sont :

3 Modèle

3Analyse en Composantes Pr incipales(A CP)

Observation=Modèle+Bruit

9Aq;sous-espace affine de dim.qdeEtel que8i;zi2Aq(q < p):(1)

Soitz=Pn

3.1 Estimation

Preuve

Eq;zi(

M;dim(Eq) =q;ziz2Eq)

SoitX=X1nx

0la matrice centrée etZla matrice(np)dont les lignes sont

M+kxzk2

M;D;Z2 Mn;p;rang(Z) =qo

0DXM=SMassociés aux mêmes valeurs

4Analyse en Composantes Pr incipales(A CP)

Les estimations sont donc données par :

1=2ukvk0=Uq1=2V0q=X

M-orthogonale surcEq;

Eq=vectfv1;:::;vqg;

E2est appelé plan principal;

Remarques

1=vectfv1g E2=vectfv1;v2g E3=vectfv1;v2;v3g :::

1=2où=diag(21;:::;2p);avec2j=Var(Xj) ;

Sest alors la matriceR=1=2S1=2descorrélations.

3.2 Autre définition

C(i) = (xix)0f:

Les vecteursck=Xf

La matrice

C=XF=XMV=U1=2

4 Graphiques

4.1 Individus

4.1.1 Projection

5Analyse en Composantes Pr incipales(A CP)

M= (xix)0Mvk=e0iXMv

4.1.2 Qualités

M;D=tr(X

0DXM) =tr(SM):

Mkxixk2

4.1.3 Contributions

MtrSM=wiPp

6Analyse en Composantes Pr incipales(A CP)

4.1.4 Individus supplémentaires

M=vk0MVqV0qM(sx) =ek0V0qM(sx):

0qM(sx):

4.2 Variables

4.2.1 Projection

D=xj0Duk=1p

Dkxjk2

4.2.3 Corrélations variables - facteurs

DkxjkD=p

4.2.4 Cercle des corrélations

Dans le cas de variables réduites

D= 1, lesexjsont sur la

D= cos(xj;cQ2xj)1:

Ainsi, plus

4.3 Biplot

U1=2V0ij

7Analyse en Composantes Pr incipales(A CP)Axe 2