[PDF] [PDF] Études de cas en analyse des données - Université de Sherbrooke

5 2 1) Analyse en composantes principales (ACP) des trios Dans le cas de cette étude, le site puckalyticks com fournit des bases de données très complètes  



Previous PDF Next PDF





[PDF] Séance 1: Analyse en composantes principales - Révisions

Séance 1: Analyse en composantes principales Un exemple d'étude : Température de ville par mois Premi`ere partie I l'ACP sont : Cas euclidien M=



[PDF] Études de cas en analyse des données - Université de Sherbrooke

5 2 1) Analyse en composantes principales (ACP) des trios Dans le cas de cette étude, le site puckalyticks com fournit des bases de données très complètes  



[PDF] Analyse en Composantes Principales - AgroParisTech

L'Analyse en Composantes principales (ACP) fait partie du groupe des Il s'agit de l'étude des différents postes du budget de l'état français de 1872 `a 1971 Les Dans le cas de la recherche de a1, il faut calculer les dérivées partielles de :



[PDF] LANALYSE EN COMPOSANTES PRINCIPALES (ACP)

Dans le cas où les variables sont centrées réduites, la variance de chaque variable vaut 1 L'inertie totale est alors égale à p (nombre de variables) Page 14  



[PDF] Exemples danalyse en composantes principales

Dans le cas d'une ACP normée, cela revient à conserver les Les scores des individus sont les valeurs des composantes principales sur les individus : Fact 1 interprétation évidente et l'étude doit s'attacher à analyser les facteurs suivants



[PDF] Cours ACP - Principes et pratique de lACP - Université Lumière

Analyse en Composantes Principales (ACP) Cas particulier de 2 variables c r sont cohérentes : q = 1 seul facteur semble suffire dans cette étude Par



[PDF] Analyse en composantes principales - ACP - Etude de cas sous R

1/1 Sujet : On souhaite analyser les données « US Crime » à l'aide d'une Analyse en Composantes Principales Données : crime dataset – dasl xlsx Outil : Vous 



[PDF] Lanalyse en composantes principales en pratique - FOAD - MOOC

L'unité statistique peu être primaire (par exemple un individu, une entreprise) ou secondaire Dans ce dernier cas, il s'agit de regroupement d'unités statistiques 

[PDF] etude de cas bac pro arcu 2017

[PDF] etude de cas bac pro commerce 2012

[PDF] etude de cas bac pro commerce 2015

[PDF] etude de cas blablacar

[PDF] etude de cas bnp paribas

[PDF] etude de cas bts ag 2010

[PDF] étude de cas bts diététique

[PDF] etude de cas bts muc corrigé 2007

[PDF] etude de cas business model

[PDF] etude de cas cafe chapuis

[PDF] etude de cas casino

[PDF] etude de cas communication d'entreprise

[PDF] etude de cas communication de crise

[PDF] étude de cas conduite de réunion

[PDF] etude de cas conduite du changement

Études de cas en analyse des données

Bernard Colin (Éditeur)

Départements de mathématiques

Faculté des Sciences

Université de Sherbooke

Rapport de recherche No 151

1

AVANT-PROPOS

Ce rapport, présente les travaux réalisés, lors de la session de l"automne 2015, par les étudiants du

département de mathématiques de l"Université de Sherbrooke, dans le cadre de l"activité pédagogique STT

707 “Analyse des données", inscrite au programme de maîtrise en mathématiques et de maîtrise en imagerie.

J"adresse mes plus sincères remerciements aux auteurs du présent rapport, qui, avec ardeur et enthousi-

réalisation de ces travaux.

Sherbrooke, mai 2016,

Bernard Colin

Département de mathématiques

Faculté des Sciences

Université de Sherbrooke

2

Table des matières

[1] Etienne Bégin :

Nationale de Hockey (LNH) à l"aide de l"analyse en composantes principales (ACP) et de la classi...cation

hiérarchique ascendante. [2] Carl Lapointe : Analyse du rendement des gardiens de buts de la LNH. 3 différentes équipes de la Ligue Nationale de Hockey (LNH) o[]o[voǐv composante principale (ACP) et de la classification hiérarchique ascendante

Par : Étienne Bégin, étudiant à la maîtrise en statistiques, Université de Sherbrooke,

Faculté des sciences, Département de mathématiques RÉSUMÉ : Le monde sportif regorge de statistiques à analyser, et ce, même pour notre sport national : le Hockey. Je propose ici des analyses en composantes principales et une classification hiérarchique à partir de base données sur les joueurs analyses sont de comparer les trios et les duos des différentes équipes entre eux, de " statistiques avancées » dans la comparaison des rendements des joueurs. 1

Table des matières

1) Introduction................................................................................................................................. 3

2) Position du problème. ................................................................................................................. 4

3) Présentation des données. .......................................................................................................... 4

4) Modèle. ....................................................................................................................................... 6

4.1) Choix du modèle................................................................................................................... 6

4.2) Présentation du modèle. ...................................................................................................... 7

4.3) Critique du modèle. .............................................................................................................. 9

5) Analyse des résultats. ................................................................................................................ 10

5.1) Traitement informatique. ................................................................................................... 10

5.2) Analyse des données et interprétation des résultats. ....................................................... 10

5.2.1) Analyse en composantes principales (ACP) des trios .................................................. 12

5.2.2) Analyse en composantes principales (ACP) des duos ................................................. 26

5.2.3) Classification hiérarchique ascendante des trios ........................................................ 40

6) Conclusions................................................................................................................................ 57

7) Bibliographie. ............................................................................................................................ 60

8) Annexe. ...................................................................................................................................... 61

2

Liste des figures et des tableaux

4. Projections dans le plan principal d'inertie des ǀariables retenues pour l'analyse des trios

5. Tableau des ǀariables reprĠsentatiǀes du premier adže principal d'inertie pour l'analyse des

6. Tableau des ǀariables reprĠsentatiǀes du deudžiğme adže principal d'inertie pour l'analyse des

7. Tableau des variables reprĠsentatiǀes du troisiğme adže principal d'inertie pour l'analyse des

8. Points edžtrġmes sur le plan principal d'inertie pour les triosYYYYYYYYYYYYYYYYYYYYXX 24

9. Projections dans le plan principal d'inertie des duos de dĠfenseursYYYYYYYYYYYYYYYYX 30

10. Projections dans le plan principal d'inertie des ǀariables pour l'analyse des duos de

11. Tableau des variables reprĠsentatiǀes du premier adže principal d'inertie pour l'analyse des

12. Tableau des ǀariables reprĠsentatiǀes du deudžiğme adže principal d'inertie pour l'analyse des

13. Tableau des ǀariables reprĠsentatiǀes du premier adže principal d'inertie pour l'analyse des

3

1) Introduction.

analysés. En cette époque numérique où tout est quantifié et que les bases de données

sur tous les sujets possibles et imaginables ne cessent d'augmenter en nombre et en taille, tout statisticien peut trouver des observations de variables aléatoires avec lesquelles travailler. Les statisticiens sportifs ne font pas exception à la règle : toute sorte de nouvelles variables aléatoires sont maintenant mesurées et quantifiées. Prenons, par avancées dans lesquelles chaque joueur (ou observation) se voit attribuer de nouvelles variables comme les fenwicks ou les corsis. La dĠfinition d'un fenwick est un tir tenté au manqué le filet sans être bloqué par les joueurs adverses. Quant à la définition des davantage de fenwicks que de tirs officiels (tir officiel : tir bloqué par le gardien de but ou tir pénétrant dans le filet). Bref, même dans le domaine du hockey dans lequel il y avait déjà un bon nombre de données à analyser, de nouvelles variables sont maintenant ajoutées pour donner de meilleures précisions sur les rendements des joueurs. Mais est-ce que ces nouvelles statistiques sont vraiment nécessaires? Est-ce que les corsis et les fenwicks (et bien d'autres nouǀelles ǀariables) apportent ǀraiment une nouǀelle dimension ă sera étudié. 4

2) Position du problème.

L'analyse proposĠe se fera sur des ensembles de joueurs regroupés en trios, chez les attaquants, et en duos, chez les défenseurs. Nous voulons pouvoir comparer les différents trios offensifs et duos défensifs entre eux. Pour ce faire, on déterminera le Nous voulons par cette analyse aussi découvrir si les statistiques avancées que sont les fenwicks et les corsis apportent réellement une nouvelle information utile et significative. De plus, il sera intéressant de regrouper les trios et les duos en classes afin En bref, nous voulons savoir avec combien de dimensions il est possible offensifs et l'inertie du nuage de points formĠ par les duos dĠfensifs pour saǀoir si profiterons aussi de l'occasion pour tenter de comparer les trios et les duos entre eudž et ainsi les regrouper en classe.

3) Présentation des données.

Pour commencer à étudier le problème, il faut tout d'abord trouǀer une base de données fiable. Dans le cas de cette étude, le site puckalyticks.com fournit des bases de donnĠes trğs complğtes sur l'ensemble des joueurs de hockey depuis 2004. En effet, il des statistiques avancées. Nous avons considéré les statistiques des joueurs au cours des cinq dernières années. Dans le but d'une certaine edžhaustiǀitĠ, nous aǀons retenus seulement 50 variables (plusieurs variables étaient redondantes ex : buts et buts par 60 minutes de 5 jeu). Pour la construction des 2 trios et des 2 duos pour chacune des équipes, nous avons considéré les joueurs ayant joué le plus de minutes au cours des cinq dernières de minutes au cours des années 2010 à 2015 avec cette équipe ou avec toutes autres organisations pour lesquelles le joueur aurait joué au cours de cette période. La composition de chacun des trios et des duos sera mise en annexe. Pour les statistiques de chacun des trios et des duos, elles sont calculées comme des moyennes pondérées des statistiques des joueurs composant le trio ou le duo. La pondération est effectuée par le temps de jeu de chacun des joueurs composant le trio ou le duo au cours des cinq dernières années. Voici, par exemple, les deux premiers trios des Bruins de Boston avec les 9 premières variables et dont on trouvera la description en annexe :

Figure 1 : Portion de la base de données

Team GP TOI GF60 GA60 GF% SF60 SA60 SF% Sh%

Boston T1 360.483567 6516.11111 3.48545006 2.22571656 61.0404863 34.7244666 27.5384527 55.7220117 10.0479236

Boston T2 347.736427 5797.24444 2.96875757 2.4395757 54.1900281 31.4021787 29.8211657 51.0741528 9.29058231

*Pour avoir les tableaux complets, voir les fichiers qui ont été envoyés en complément. variables pour chacun des joueurs, celui-ci ne procure pas les données non-offensives comme les minutes de pénalités et le nombre de mises en échecs effectuées par un joueur. Ainsi, ces variables qui auraient apporté vraisemblablement une autre dimension au problème, ne seront pas prises en considération. De plus, par manque de référence de certaines statistiques fournies par le site, il compréhensibles et interprétables. 6

4) Modèle.

4.1) Choix du modèle.

Comme le problème se décompose en deux parties, soit savoir combien de dimensions sont nécessaires pour expliquer les performances d'un trio ou d'un duo par rapport aux autres et la classification des trios en groupes hétérogènes, deux modèles distincts seront utilisés. Tout d'abord, une analyse en composantes principales permettra de répondre très bien au premier problğme en trouǀant les principaudž adžes d'inertie des nuages de directement une très bonne idée de la dimension du problğme. Ainsi, si l'on obtient des alors les statistiques avancées sembleront procurer effectivement un point de vue à performance des trios et des duos au cours des saisons. Finalement, si nous sommes ni conclusion. et des duos en sous-groupes. Cette méthode de classification et de regroupement des trios et des duos permettra de trouver les lignes des différentes équipes de hockey qui se ressemblent le plus. Il sera donc possible de faire des rapprochements entre les défensives et les offensives des clubs. 7

4.2) Présentation du modèle.

L'analyse en composantes principales consiste, de manière générale à trouver les points constitué des observations est le minimum1. Chaque observation est un vecteur qui est constitué des valeurs de chacune de ses variables observées. Par exemple, dans notre cas nous avons 50 variables mesurées pour chaque trio et duo et donc chaque obserǀation sera considĠrĠe comme un ǀecteur d'un espace ă 50 dimensions. On pose N le nuage de points des observations, V est la matrice de variance travailler dans R50 (souvent A=I, la matrice identité). madžimum d'inertie du sous-espace orthogonal. Soit u le vecteur unitaire engendrant le donné par : Ainsi, on veut maximiser cette valeur avec la contrainte que u est un vecteur unitaire. l'aide des multiplicateurs de Lagrange on montre que la solution du problème se ramenène à : 2 Donc, u sera vecteur propre de VA associé à la ǀaleur propre ʄф1. La droite

1Statistique Exploratoire Multidimensionnelle. L. Lebart, M. Piron et A. Morineau. Dunod 4e édition

(2006).

2 lĠments d'analyse des donnĠes. E. Disday, J. Lemaire, J. Pouget et F. Testu. Dunod (1982).

8 Pour le deudžiğme adže d'inertie, utilise la même procédure avec un vecteur v, mais en ajoutant la contrainte vTAu=0. Par un raisonnement quasi-identique on trouve les k premiers adžes principaudž d'inertie.

On montre que3 ݐݎ:8#;Lquotesdbs_dbs14.pdfusesText_20