centrage les données se présentent sous la forme d'une matrice, il est habituel, par exemple lors d'une analyse en composantes principales, de centrer les
Previous PDF | Next PDF |
[PDF] Analyse statistique des donn´ees dexpression - Institut de
centrage les données se présentent sous la forme d'une matrice, il est habituel, par exemple lors d'une analyse en composantes principales, de centrer les
[PDF] Statistique Numérique et Analyse des Données
ment répandue, selon laquelle le but de la discipline statistique est d'analyser des données issues d'une expérience à caractère aléatoire Cela sous-entend
[PDF] CH1 : Introduction à lAnalyse Des Données (ADD)
✓ Lors de toute étude statistique, il est nécessaire de décrire et explorer les données avant d'en tirer de quelconques lois ou modèles prédictifs ✓ Dans
[PDF] Analyse des données Master Statistique et économétrie Notes de
L'analyse statistique multivariée consiste à analyser et comprendre des données de grande dimension Nous supposons que nous avons un ensemble {xi}i=1,···
[PDF] Cours danalyse de données
données plus fiables que les autres Définition 2 – L'inertie est I = ∑n i=1 mi xi − g 2 Point de vue statistique X N(OnΣ) alors si Σ non singulière, Σ = UDU et
[PDF] PDF 87 ko Statistiques appliquées à la gestion : Cours danalyse de
Edwin Diday L'analyse des données c'est aujourd'hui l'expression consacrée pour désigner les analyses statistiques descriptives multidimensionnelles
[PDF] Lanalyse de données
Ainsi les observations ou individus ou encore unités statistiques sont représentés en ligne et sont chacun décrits par des variables ou caractères Nous
[PDF] Analyse Statistique et Introduction aux bases de données
Partie I Analyse statistique Statistiques descriptives pour le traitement d' enquêtes Applications à plusieurs jeux de données Partie II Initiation aux bases de
[PDF] L Application Performance Management pourquoi et pour quoi faire?
[PDF] L apprentissage à l université Réunion d information 2015
[PDF] L apprentissage tout au long de la vie, une perspective européenne.
[PDF] L Assemblée Nationale a délibéré et adopté en sa séance du 28 juin 1996 ;
[PDF] L assistante maternelle fait visiter à l employeur les pièces auxquelles l enfant aura accès.
[PDF] L assistante sociale* de l établissement, se tient à votre disposition pour tous renseignements complémentaires que vous souhaiteriez obtenir.
[PDF] l Association des déchets solides du Nouveau-Brunswick
[PDF] L Association pour le Développement du service public Médico-Social (ADMS)
[PDF] L ASSURANCE COMPLÉMENTAIRE SANTÉ OBLIGATOIRE : SYNTHÈSE
[PDF] L assurance emprunteur en crédit immobilier
[PDF] L assurance-vie multisupport, pour la constitution de votre patrimoine
[PDF] l atelier collectif : une nouvelle approche de la sante sexuelle des PVVIH
[PDF] L Autorité de régulation des communications électroniques et des postes,
[PDF] L E S AVOIR R ÉNOVER. Pierre & Vacances
Analyse statistique des
donn´ees d"expression
ALAINBACCINI1, PHILIPPEBESSE1, S´EBASTIEND´EJEAN1, PASCALMARTIN2, CHRIST`ELEROBERT-GRANI´E3& MAGALISANCRISTOBAL4Version d
´ecembre 2008 - mises`a jour et compl´ements : http ://math.univ-toulouse.fr/biostat/ (1)Institut de Math
´ematiques de Toulouse - UMR CNRS 5219
Laboratoire de Statistique et Probabilit
´es
Universit
´e de Toulouse
(2)Laboratoire de Pharmacologie-T oxicologie
- (3)Station d"am
´elioration g´en´etique des animaux
(4)Laboratoire de g
´en´etique cellulaire
Institut National de la Recherche Agronomique
2Table des mati
`eresAvant-propos
9Motivations
9Objectif
91 Introduction
111 Objectifs
112 Contenu
123 Application aux donn
´ees d"expression. . . . . . . . . . . . . . . . . . . . . . . 133.1 Jeux de donn
´ees. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.2 Sp
´ecificit´es. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143.3 Choix m
´ethodologiques initiaux. . . . . . . . . . . . . . . . . . . . . . 142 Description statistique
´el´ementaire17
1 Introduction
172 Decription d"une variable
172.1 Cas quantitatif
172.2 Cas qualitatif
193 Liaison entre variables
203.1 Deux variables quantitatives
203.2 Une variable quantitative et une qualitative
223.3 Deux variables qualitatives
234 Vers le cas multidimensionnel
254.1 Matrices des covariances et des corr
´elations. . . . . . . . . . . . . . . . 25
4.2 Tableaux de nuages
255 Probl
`emes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256 Exemple : nutrition chez la souris
263 Analyse en Composantes Principales
291 introduction
293
4TABLE DES MATI`ERES
2 Pr ´esentation´el´ementaire de l"ACP. . . . . . . . . . . . . . . . . . . . . . . . . 302.1 Les donn
´ees. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.2 R ´esultats pr´eliminaires. . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.3 R ´esultats g´en´eraux. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.4 R ´esultats sur les variables. . . . . . . . . . . . . . . . . . . . . . . . . 32 2.5 R ´esultats sur les individus. . . . . . . . . . . . . . . . . . . . . . . . . 333 Repr
´esentation vectorielle de donn´ees quantitatives. . . . . . . . . . . . . . . . 353.1 Notations
353.2 Interpr
´etation statistique de la m´etrique des poids. . . . . . . . . . . . . 363.3 La m
´ethode. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4 Mod `ele. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.1 Estimation
374.2 D ´efinition´equivalente. . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5 Repr
´esentations graphiques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395.1 Les individus
395.2 Les variables
415.3 Repr
´esentation simultan´ee ou "biplot". . . . . . . . . . . . . . . . . . . 426 Choix de dimension
446.1 Part d"inertie
446.2 R `egle de Kaiser. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 6.3 ´Eboulis des valeurs propres. . . . . . . . . . . . . . . . . . . . . . . . 44
6.4 Diagramme en bo
ˆıte des variables principales. . . . . . . . . . . . . . . 447 Interpr
´etation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 468 Donn
´ees d"expression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 468.1 Exploration
´el´ementaire. . . . . . . . . . . . . . . . . . . . . . . . . . 468.2 Analyse en composantes principales
469 Exemple : nutrition chez la souris
524 Analyse Factorielle Discriminante
571 Introduction
571.1 Donn
´ees. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 571.2 Objectifs
571.3 Notations
582 D ´efinition. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.1 Mod
`ele. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 582.2 Estimation
593 R ´ealisation de l"AFD. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
TABLE DES MATI
`ERES53.1 Matrice
`a diagonaliser. . . . . . . . . . . . . . . . . . . . . . . . . . . 603.2 Repr
´esentation des individus. . . . . . . . . . . . . . . . . . . . . . . . 603.3 Repr
´esentation des variables. . . . . . . . . . . . . . . . . . . . . . . . 603.4 Interpr
´etations. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 604 Variantes de l"AFD
614.1 Individus de m
ˆemes poids. . . . . . . . . . . . . . . . . . . . . . . . . 61 4.2 M ´etrique de Mahalanobis. . . . . . . . . . . . . . . . . . . . . . . . . 625 Exemples
625 Positionnement multidimensionnel
651 Introduction
652 Distance, similarit
´es. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 2.1 D ´efinitions. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 672.2 Distances entre variables
683 Recherche d"une configuration de points
683.1 Propri
´et´es. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693.2 Explicitation du MDS
694 Application au choix de variables
705 Donn
´ees d"expression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 706 Exemple : nutrition chez la souris
746 Classification
771 Introduction
771.1 Les donn
´ees. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 771.2 Les objectifs
771.3 Les m
´ethodes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 772 Illustration
793 Mesures d"
´eloignement. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 823.1 Indice de ressemblance, ou similarit
´e. . . . . . . . . . . . . . . . . . . 82
3.2 Indice de dissemblance, ou dissimilarit
´e. . . . . . . . . . . . . . . . . . 82
3.3 Indice de distance
833.4 Distance
833.5 Distance euclidienne
833.6 Utilisation pratique
833.7 Bilan
844 Classification ascendante hi
´erarchique. . . . . . . . . . . . . . . . . . . . . . . 844.1 Principe
844.2 Distance, ou dissemblance, entre deux classes
846TABLE DES MATI`ERES
4.3 Algorithme
854.4 Graphes
855 Agr ´egation autour de centres mobiles. . . . . . . . . . . . . . . . . . . . . . . 85
5.1 Principes
855.2 Principale m
´ethode. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 865.3 Propri
´et´es. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 865.4 Variantes
865.5 Combinaison
876 Donn
´ees d"expression. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 887 Exemple : nutrition chez la souris
917 Mod `ele lin´eaire et r´egression95
1 Introduction
952 Le mod
`ele de r´egression simple. . . . . . . . . . . . . . . . . . . . . . . . . . 952.1 Ecriture et hypoth
`eses du mod`ele. . . . . . . . . . . . . . . . . . . . . 962.2 Le mod
`ele lin´eaire gaussien. . . . . . . . . . . . . . . . . . . . . . . . 972.3 Estimation des param
`etres1et2. . . . . . . . . . . . . . . . . . . .982.4 Propri
´et´es des estimateurs. . . . . . . . . . . . . . . . . . . . . . . . . 1002.5 Estimation ponctuelle de2. . . . . . . . . . . . . . . . . . . . . . . .100
2.6 Tests d"hypoth
`ese et intervalles de confiance. . . . . . . . . . . . . . . 100 2.7 V ´erification des hypoth`eses. . . . . . . . . . . . . . . . . . . . . . . . 101 3 R ´egression lineaire multiple. . . . . . . . . . . . . . . . . . . . . . . . . . . . 1063.1 Multicolin
´earit´e. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1073.2 Crit
`eres de s´election de mod`ele. . . . . . . . . . . . . . . . . . . . . . 107 8 Mod `ele lin´eaire : analyse de variance1091 ANOVA
`a un facteur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1091.1 Un exemple
1091.2 Diverses param
´etrisations. . . . . . . . . . . . . . . . . . . . . . . . . 110 1.3 V ´erification des hypoth`eses - Diagnostics. . . . . . . . . . . . . . . . . 1111.4 Estimation des param
`etres. . . . . . . . . . . . . . . . . . . . . . . . . 1121.5 Intervalle de confiance et tests d"hypoth
`eses. . . . . . . . . . . . . . . . 1122 ANOVA
`a deux facteurs crois´es. . . . . . . . . . . . . . . . . . . . . . . . . . 1143 Analyse de covariance
1164 Tests multiples
1174.1 Rappels sur les risques de premi
`ere et seconde esp`ece. . . . . . . . . . . 1174.2 Tests multiples
1175 Mod `ele lin´eaire mixte gaussien. . . . . . . . . . . . . . . . . . . . . . . . . . . 118
TABLE DES MATI
`ERES75.1 Exemple 1
1195.2 Exemple 2
1195.3 Exemple 3
1205.4 D ´efinition. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
6 Exemple : nutrition chez la souris
1226.1 Analyses de variance et mod
`ele mixte. . . . . . . . . . . . . . . . . . . 1226.2 Principe des analyses de variance
1226.3 Synth
`ese des tests multiples. . . . . . . . . . . . . . . . . . . . . . . . 1236.4 Mod
`ele mixte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126En guise de conclusion
129A Annexes
1331 Analyse canonique
1332 Mod `ele lin´eaire. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
8TABLE DES MATI`ERES
Avant-propos
Motivations
Le d ´eveloppement des moyens informatiques de stockage (bases de donn´ees) et de calcul permet le traitement et l"analyse d"ensembles de donn´ees tr`es volumineux. De plus, le perfec-
tionnement des interfaces offre aux utilisateurs, statisticiens ou non, des possibilit´es de mise en
oeuvre tr `es simples des outils logiciels. Dans ce contexte, le biologiste dispose d"un corpus rela- tivement sophistiqu ´e de techniques statistiques utilisables sur les donn´ees d"expression des g`enes produites par PCR, macro ou microarrays (biopuces). Les logiciels commerciaux ou non offrent des ´eventails plus ou moins larges d"acc`es`a ces techniques dans une pr´esentation plus ou moins explicite voire "bo ˆıte noire". Intentionnellement ce cours a fait le choix d"illustrer les techniques par un logiciel, le plus complet et le plus explicite possible : R. Mˆeme s"il ne semble pas le plus
simple d"utilisation par rapport `a certains produits commerciaux privil´egiant une interface gra- phique "conviviale", son utilisation incite `a l"indispensable compr´ehension des m´ethodes et de leurs limites. Il fait bien admettre qu"il ne suffit pas d"obtenir des r´esultats, il faut leur donner du
sens. Rien ne nous semble en effet plus dangereux que des r´esultats ou des graphiques obtenus
a l"aide de quelques clics de mulot dont ni les techniques, ni les options, ni leurs limites ne sont clairement explicit´ees ou contrˆol´ees par l"utilisateur. Il est par ailleurs risqu´e de se laisser enfermer
par les seules m ´ethodes et options offertes par "un" logiciel. En pratique, le r´eagencement ou la r´eorganisation de quelques commandes R offrent une combinatoire tr`es ouvertes de possibilit´es
contrairement `a un syst`eme clos de menus pr´ed´efinis. Il offre par ailleurs, grˆace`a de nombreuses boˆıtes`a outils librement accessibles et continuellement mises`a jour, un ensemble exhaustif des
techniques et de leurs options ainsi que des interfaces `a des gestionnaires de bases de donn´ees ou des outils sp ´ecifiques`a l"´etude des biopuces (Bioconductor).