[PDF] [PDF] Analyse statistique des donn´ees dexpression - Institut de

centrage les données se présentent sous la forme d'une matrice, il est habituel, par exemple lors d'une analyse en composantes principales, de centrer les 



Previous PDF Next PDF





[PDF] Analyse statistique des donn´ees dexpression - Institut de

centrage les données se présentent sous la forme d'une matrice, il est habituel, par exemple lors d'une analyse en composantes principales, de centrer les 



[PDF] Statistique Numérique et Analyse des Données

ment répandue, selon laquelle le but de la discipline statistique est d'analyser des données issues d'une expérience à caractère aléatoire Cela sous-entend 



[PDF] CH1 : Introduction à lAnalyse Des Données (ADD)

✓ Lors de toute étude statistique, il est nécessaire de décrire et explorer les données avant d'en tirer de quelconques lois ou modèles prédictifs ✓ Dans 



[PDF] Analyse des données Master Statistique et économétrie Notes de

L'analyse statistique multivariée consiste à analyser et comprendre des données de grande dimension Nous supposons que nous avons un ensemble {xi}i=1,··· 



[PDF] Cours danalyse de données

données plus fiables que les autres Définition 2 – L'inertie est I = ∑n i=1 mi xi − g 2 Point de vue statistique X N(OnΣ) alors si Σ non singulière, Σ = UDU et 



[PDF] PDF 87 ko Statistiques appliquées à la gestion : Cours danalyse de

Edwin Diday L'analyse des données c'est aujourd'hui l'expression consacrée pour désigner les analyses statistiques descriptives multidimensionnelles



[PDF] Lanalyse de données

Ainsi les observations ou individus ou encore unités statistiques sont représentés en ligne et sont chacun décrits par des variables ou caractères Nous 



[PDF] Analyse Statistique et Introduction aux bases de données

Partie I Analyse statistique Statistiques descriptives pour le traitement d' enquêtes Applications à plusieurs jeux de données Partie II Initiation aux bases de 

[PDF] L ANI du 11 janvier 2013 : une petite révolution!

[PDF] L Application Performance Management pourquoi et pour quoi faire?

[PDF] L apprentissage à l université Réunion d information 2015

[PDF] L apprentissage tout au long de la vie, une perspective européenne.

[PDF] L Assemblée Nationale a délibéré et adopté en sa séance du 28 juin 1996 ;

[PDF] L assistante maternelle fait visiter à l employeur les pièces auxquelles l enfant aura accès.

[PDF] L assistante sociale* de l établissement, se tient à votre disposition pour tous renseignements complémentaires que vous souhaiteriez obtenir.

[PDF] l Association des déchets solides du Nouveau-Brunswick

[PDF] L Association pour le Développement du service public Médico-Social (ADMS)

[PDF] L ASSURANCE COMPLÉMENTAIRE SANTÉ OBLIGATOIRE : SYNTHÈSE

[PDF] L assurance emprunteur en crédit immobilier

[PDF] L assurance-vie multisupport, pour la constitution de votre patrimoine

[PDF] l atelier collectif : une nouvelle approche de la sante sexuelle des PVVIH

[PDF] L Autorité de régulation des communications électroniques et des postes,

[PDF] L E S AVOIR R ÉNOVER. Pierre & Vacances

[PDF] Analyse statistique des donn´ees dexpression - Institut de

Analyse statistique des

donn

´ees d"expression

ALAINBACCINI1, PHILIPPEBESSE1, S´EBASTIEND´EJEAN1, PASCALMARTIN2, CHRIST`ELEROBERT-GRANI´E3& MAGALISANCRISTOBAL4

Version d

´ecembre 2008 - mises`a jour et compl´ements : http ://math.univ-toulouse.fr/biostat/ (1)

Institut de Math

´ematiques de Toulouse - UMR CNRS 5219

Laboratoire de Statistique et Probabilit

´es

Universit

´e de Toulouse

(2)

Laboratoire de Pharmacologie-T oxicologie

- (3)

Station d"am

´elioration g´en´etique des animaux

(4)

Laboratoire de g

´en´etique cellulaire

Institut National de la Recherche Agronomique

2

Table des mati

`eres

Avant-propos

9

Motivations

9

Objectif

9

1 Introduction

11

1 Objectifs

11

2 Contenu

12

3 Application aux donn

´ees d"expression. . . . . . . . . . . . . . . . . . . . . . . 13

3.1 Jeux de donn

´ees. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.2 Sp

´ecificit´es. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.3 Choix m

´ethodologiques initiaux. . . . . . . . . . . . . . . . . . . . . . 14

2 Description statistique

´el´ementaire17

1 Introduction

17

2 Decription d"une variable

17

2.1 Cas quantitatif

17

2.2 Cas qualitatif

19

3 Liaison entre variables

20

3.1 Deux variables quantitatives

20

3.2 Une variable quantitative et une qualitative

22

3.3 Deux variables qualitatives

23

4 Vers le cas multidimensionnel

25

4.1 Matrices des covariances et des corr

´elations. . . . . . . . . . . . . . . . 25

4.2 Tableaux de nuages

25

5 Probl

`emes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

6 Exemple : nutrition chez la souris

26

3 Analyse en Composantes Principales

29

1 introduction

29
3

4TABLE DES MATI`ERES

2 Pr ´esentation´el´ementaire de l"ACP. . . . . . . . . . . . . . . . . . . . . . . . . 30

2.1 Les donn

´ees. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.2 R ´esultats pr´eliminaires. . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.3 R ´esultats g´en´eraux. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.4 R ´esultats sur les variables. . . . . . . . . . . . . . . . . . . . . . . . . 32 2.5 R ´esultats sur les individus. . . . . . . . . . . . . . . . . . . . . . . . . 33

3 Repr

´esentation vectorielle de donn´ees quantitatives. . . . . . . . . . . . . . . . 35

3.1 Notations

35

3.2 Interpr

´etation statistique de la m´etrique des poids. . . . . . . . . . . . . 36

3.3 La m

´ethode. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4 Mod `ele. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4.1 Estimation

37
4.2 D ´efinition´equivalente. . . . . . . . . . . . . . . . . . . . . . . . . . . 38

5 Repr

´esentations graphiques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

5.1 Les individus

39

5.2 Les variables

41

5.3 Repr

´esentation simultan´ee ou "biplot". . . . . . . . . . . . . . . . . . . 42

6 Choix de dimension

44

6.1 Part d"inertie

44
6.2 R `egle de Kaiser. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 6.3 ´Eboulis des valeurs propres. . . . . . . . . . . . . . . . . . . . . . . . 44

6.4 Diagramme en bo

ˆıte des variables principales. . . . . . . . . . . . . . . 44

7 Interpr

´etation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

8 Donn

´ees d"expression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

8.1 Exploration

´el´ementaire. . . . . . . . . . . . . . . . . . . . . . . . . . 46

8.2 Analyse en composantes principales

46

9 Exemple : nutrition chez la souris

52

4 Analyse Factorielle Discriminante

57

1 Introduction

57

1.1 Donn

´ees. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

1.2 Objectifs

57

1.3 Notations

58
2 D ´efinition. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

2.1 Mod

`ele. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

2.2 Estimation

59
3 R ´ealisation de l"AFD. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

TABLE DES MATI

`ERES5

3.1 Matrice

`a diagonaliser. . . . . . . . . . . . . . . . . . . . . . . . . . . 60

3.2 Repr

´esentation des individus. . . . . . . . . . . . . . . . . . . . . . . . 60

3.3 Repr

´esentation des variables. . . . . . . . . . . . . . . . . . . . . . . . 60

3.4 Interpr

´etations. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

4 Variantes de l"AFD

61

4.1 Individus de m

ˆemes poids. . . . . . . . . . . . . . . . . . . . . . . . . 61 4.2 M ´etrique de Mahalanobis. . . . . . . . . . . . . . . . . . . . . . . . . 62

5 Exemples

62

5 Positionnement multidimensionnel

65

1 Introduction

65

2 Distance, similarit

´es. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 2.1 D ´efinitions. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

2.2 Distances entre variables

68

3 Recherche d"une configuration de points

68

3.1 Propri

´et´es. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

3.2 Explicitation du MDS

69

4 Application au choix de variables

70

5 Donn

´ees d"expression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

6 Exemple : nutrition chez la souris

74

6 Classification

77

1 Introduction

77

1.1 Les donn

´ees. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

1.2 Les objectifs

77

1.3 Les m

´ethodes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

2 Illustration

79

3 Mesures d"

´eloignement. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

3.1 Indice de ressemblance, ou similarit

´e. . . . . . . . . . . . . . . . . . . 82

3.2 Indice de dissemblance, ou dissimilarit

´e. . . . . . . . . . . . . . . . . . 82

3.3 Indice de distance

83

3.4 Distance

83

3.5 Distance euclidienne

83

3.6 Utilisation pratique

83

3.7 Bilan

84

4 Classification ascendante hi

´erarchique. . . . . . . . . . . . . . . . . . . . . . . 84

4.1 Principe

84

4.2 Distance, ou dissemblance, entre deux classes

84

6TABLE DES MATI`ERES

4.3 Algorithme

85

4.4 Graphes

85
5 Agr ´egation autour de centres mobiles. . . . . . . . . . . . . . . . . . . . . . . 85

5.1 Principes

85

5.2 Principale m

´ethode. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

5.3 Propri

´et´es. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

5.4 Variantes

86

5.5 Combinaison

87

6 Donn

´ees d"expression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

7 Exemple : nutrition chez la souris

91
7 Mod `ele lin´eaire et r´egression95

1 Introduction

95

2 Le mod

`ele de r´egression simple. . . . . . . . . . . . . . . . . . . . . . . . . . 95

2.1 Ecriture et hypoth

`eses du mod`ele. . . . . . . . . . . . . . . . . . . . . 96

2.2 Le mod

`ele lin´eaire gaussien. . . . . . . . . . . . . . . . . . . . . . . . 97

2.3 Estimation des param

`etres1et2. . . . . . . . . . . . . . . . . . . .98

2.4 Propri

´et´es des estimateurs. . . . . . . . . . . . . . . . . . . . . . . . . 100

2.5 Estimation ponctuelle de2. . . . . . . . . . . . . . . . . . . . . . . .100

2.6 Tests d"hypoth

`ese et intervalles de confiance. . . . . . . . . . . . . . . 100 2.7 V ´erification des hypoth`eses. . . . . . . . . . . . . . . . . . . . . . . . 101 3 R ´egression lineaire multiple. . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

3.1 Multicolin

´earit´e. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

3.2 Crit

`eres de s´election de mod`ele. . . . . . . . . . . . . . . . . . . . . . 107 8 Mod `ele lin´eaire : analyse de variance109

1 ANOVA

`a un facteur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

1.1 Un exemple

109

1.2 Diverses param

´etrisations. . . . . . . . . . . . . . . . . . . . . . . . . 110 1.3 V ´erification des hypoth`eses - Diagnostics. . . . . . . . . . . . . . . . . 111

1.4 Estimation des param

`etres. . . . . . . . . . . . . . . . . . . . . . . . . 112

1.5 Intervalle de confiance et tests d"hypoth

`eses. . . . . . . . . . . . . . . . 112

2 ANOVA

`a deux facteurs crois´es. . . . . . . . . . . . . . . . . . . . . . . . . . 114

3 Analyse de covariance

116

4 Tests multiples

117

4.1 Rappels sur les risques de premi

`ere et seconde esp`ece. . . . . . . . . . . 117

4.2 Tests multiples

117
5 Mod `ele lin´eaire mixte gaussien. . . . . . . . . . . . . . . . . . . . . . . . . . . 118

TABLE DES MATI

`ERES7

5.1 Exemple 1

119

5.2 Exemple 2

119

5.3 Exemple 3

120
5.4 D ´efinition. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

6 Exemple : nutrition chez la souris

122

6.1 Analyses de variance et mod

`ele mixte. . . . . . . . . . . . . . . . . . . 122

6.2 Principe des analyses de variance

122

6.3 Synth

`ese des tests multiples. . . . . . . . . . . . . . . . . . . . . . . . 123

6.4 Mod

`ele mixte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

En guise de conclusion

129

A Annexes

133

1 Analyse canonique

133
2 Mod `ele lin´eaire. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

8TABLE DES MATI`ERES

Avant-propos

Motivations

Le d ´eveloppement des moyens informatiques de stockage (bases de donn´ees) et de calcul permet le traitement et l"analyse d"ensembles de donn

´ees tr`es volumineux. De plus, le perfec-

tionnement des interfaces offre aux utilisateurs, statisticiens ou non, des possibilit

´es de mise en

oeuvre tr `es simples des outils logiciels. Dans ce contexte, le biologiste dispose d"un corpus rela- tivement sophistiqu ´e de techniques statistiques utilisables sur les donn´ees d"expression des g`enes produites par PCR, macro ou microarrays (biopuces). Les logiciels commerciaux ou non offrent des ´eventails plus ou moins larges d"acc`es`a ces techniques dans une pr´esentation plus ou moins explicite voire "bo ˆıte noire". Intentionnellement ce cours a fait le choix d"illustrer les techniques par un logiciel, le plus complet et le plus explicite possible : R. M

ˆeme s"il ne semble pas le plus

simple d"utilisation par rapport `a certains produits commerciaux privil´egiant une interface gra- phique "conviviale", son utilisation incite `a l"indispensable compr´ehension des m´ethodes et de leurs limites. Il fait bien admettre qu"il ne suffit pas d"obtenir des r

´esultats, il faut leur donner du

sens. Rien ne nous semble en effet plus dangereux que des r

´esultats ou des graphiques obtenus

a l"aide de quelques clics de mulot dont ni les techniques, ni les options, ni leurs limites ne sont clairement explicit

´ees ou contrˆol´ees par l"utilisateur. Il est par ailleurs risqu´e de se laisser enfermer

par les seules m ´ethodes et options offertes par "un" logiciel. En pratique, le r´eagencement ou la r

´eorganisation de quelques commandes R offrent une combinatoire tr`es ouvertes de possibilit´es

contrairement `a un syst`eme clos de menus pr´ed´efinis. Il offre par ailleurs, grˆace`a de nombreuses bo

ˆıtes`a outils librement accessibles et continuellement mises`a jour, un ensemble exhaustif des

techniques et de leurs options ainsi que des interfaces `a des gestionnaires de bases de donn´ees ou des outils sp ´ecifiques`a l"´etude des biopuces (Bioconductor).

Objectifs g

´en´eraux

Ce cours se place en aval d"une pr

´esentation des probl`emes de planification, d"acquisition et de transformation (traitement d"image, normalisation) des donn

´ees d"expression. D"autres cours

quotesdbs_dbs33.pdfusesText_39