Les statistiques descriptives, comme leur nom l'indique, sont utilisées pour résumer ou décrire l'ensemble de données.
En ce qui concerne les ensembles de données, ce sont des observations ou de réponses recueillies auprès d'une population ou d'un échantillon d'une population.
Selon une terminologie classique, ce sont la statistique descriptive et la statistique mathématique.
Publicationsdel'InstitutdeMathematiquesdeToulouseStatistiqueDescriptiveElementaire(versiondemai2010)AlainBacciniInstitutdeMathematiquesdeToulouse|UMRCNRS5219UniversitePaulSabatier|31062{Toulousecedex9.
2) Tabledesmatieres1Introductiongeneralealastatistique51. 1) Generalitessurlastatistique 51.1. 1) Denition 51.1. 2) Brefhistorique 51.1. 3) Statistiquedescriptiveetstatistiqueinferentielle 61. 2) Terminologiedebase 62Statistiquedescriptiveunidimensionnelle92. 1) Casd'unevariablequantitativediscrete .92.1. 1) Introduction 92.1. 2) Presentationdesdonnees 92.1. 3) Representationsgraphiquesusuelles 102.1. 4) Notiondequantileetapplications 122.1. 5) Caracteristiquesnumeriques 142. 2) Casd'unevariablequantitativecontinue .162.2. 1) Generalites .162.2. 2) Presentationdesdonnees 162.2. 3) Representationsgraphiques 172.2. 4) Determinationdesquantiles 182.2. 5) Determinationdesautrescaracteristiquesnumeriques 182.2. 6) Illustration .182. 3) Casd'unevariablequalitative 192.3. 1) Variablesnominalesetvariablesordinales 192.3. 2) Traitementsstatistiques .192.3. 3) Representationsgraphiques 203Statistiquedescriptivebidimensionnelle233. 1) Deuxvariablesquantitatives .233.1. 1) Lesdonnees .243.1. 2) Representationgraphique:lenuagedepoints 243.1. 3) Lacovarianceetlecoecientdecorrelationlineaire 253.1. 4) Quelquesexemples 273.1. 5) Regressionlineaireentredeuxvariables 293.1. 6) Generalisation:casdeplusdedeuxvariables 313. 2) Unevariablequantitativeetunequalitative 313.2. 1) Lesdonnees .323.2. 2) Representationgraphique:lesbo^tesparalleles .333.2. 3) Formulesdedecomposition 333.2. 4) Lerapportdecorrelation 343.2. 5) Unautreexemple 343. 3) Deuxvariablesqualitatives .353.3. 1) Lesdonneesetleurpresentation .353.3. 2) Lesrepresentationsgraphiques 363.3. 3) Lesindicesdeliaison:lekhi-deuxetsesderives 373.3.4) Generalisation:letableaudeBurt 3934TABLEDESMATIERESChapitre1IntroductiongeneralealastatistiquePourxerlesidees,oncommencepardonnerunedenitiontresgeneraledelastatistique.Onfaitensuiteunbrefhistoriqueetl'onpreciseladierenceentrestatistiquedescriptive(objetdecedocument)etstatistiqueinferentielle(nontraiteeici).Ontermineparladenitiond'unedizainedetermesindispensablesalabonnecomprehensiondelasuitedececours.1.
1) Generalitessurlastatistique1.1.1) DenitionIln'estpascommode,dansuneintroduction,dedonnerunedenitionpreciseduconceptdestatistique,alorsquesoncontenuseraenpartieelaboredanslasuitedececours.Nousnouscontenteronsdonc,pourxerlesidees,d'endonnerunedenitionvolontairementassezvague.Denition1OnappelleStatistiquel'ensembledesmethodes(ouencoredestechniques)per-mettantd'analyser(ondiraplut^otdetraiter)desensemblesd'observations(nousparleronsdedonnees).Lesmethodesenquestionreleventessentiellementdesmathematiquesetfontlargementappelal'outilinformatiquepourleurmiseenuvre.Pourevitertouteconfusion,onnoteraladistinctionentrelaStatistique,ausensdenici-dessus,etunestatistique,termeparfoisutilisepourdesignerdes\donneesstatistiques"(voircetermeplusloin);parexemple,onparledelastatistiqueducommerceexterieurdelaFrance.Danslasuitedececours,nousn'utiliseronspasletermedestatistiquedanscederniersens.1.1.
2) BrefhistoriqueDefaconunpeugrossiere,onpeutdistinguertroisphasesessentiellesdansl'evolutiondelastatistique.{Depuisl'antiquite(onfaitremonterlespremieresmanifestationsdelastatistiquealahauteEgypte,avecl'enregistrementdescruesduNil)etjusqu'alandu19iemesiecle,lastatistiqueestresteeprincipalementunensembledetechniquesdedenombrement:comptaged'unepopulation(ourecensement,voircemotplusloin),deseectifsd'unearmee(onenimagineaisementl'objectif!),etc.Lestechniquesetaienttresrudimentairesetleurmiseenuvrerestaitl'apanagedupouvoirpolitique.{Entrelandu19iemesiecleetlesannees1960,s'estconstruit,notammentalasuitedel'ecoleanglaise,lastatistiquemathematique(oustatistiqueinferentielle,voirplusloin).Ledeveloppementdelastatistiqueaucoursdecetteperiodea,enfait,suivilemouvementgeneraldedeveloppementdessciences,notammentdesmathematiques,delaphysiqueetdelatheoriedesprobabilites.56CHAPITRE1.INTRODUCTIONGENERALEALASTATISTIQUE{Depuislesannees1960,avecledeveloppementetlabanalisationdesoutilsinformatiquesetgraphiques,lastatistique,etsurtoutlastatistiquedescriptivemultidimensionnelle,aconnuuneexpansionconsiderable.Atitred'illustration,penseraungraphiquedetype\camembert"(voirlechapitre2):ilestimmediatdelerealiseraujourd'huiavecn'importequeltableurtelqu'Excel(m^emesileresultatpeutparfois^etrecontestable );jusquedanslesannees1985/90,realiseruntelgra-phiquedefaconrigoureusesefaisait\alamain"etnecessitaitdesoutilstelsquerapporteur,compas ,unebonnedosed'applicationetdepatience,etuntempsnonnegligeable.1.1.
3) StatistiquedescriptiveetstatistiqueinferentielleDemaniereunpeuapproximative,ilestpossibledeclasserlesmethodesstatistiquesendeuxgroupes:celuidesmethodesdescriptivesetceluidesmethodesinferentielles.{Lastatistiquedescriptive.Onregroupesouscetermelesmethodesdontl'objectifprincipalestladescriptiondesdonneesetudiees.Cettedescriptiondesdonneessefaitatraversleurpresentation(lapluscommodeetlaplussynthetiquepossible),leurrepresentationgraphiqueetlecalculderesumesnumeriques(oucaracteristiquesnumeriques).Danscetteoptique,aucunehypothesedetypeprobabilisten'estfaitesurlesdonneesconsiderees(parexemple,iln'estpasnecessairedesupposerquelesdonneessontlesobservationsd'uneloinormale).Lestroisdirectionssignaleesci-dessus(presentation,representationsgraphiquesetcalculderesumesnumeriques)servirontdeguidedanslasuitedececours.Onnoteraquelestermesdestatistiquedescriptive,statistiqueexploratoireetanalysedesdonneessontquasimentsynonymes.{Lastatistiqueinferentielle.Cetermeregroupelesmethodesdontl'objectifprincipalestdepreciserunphenomenesurunepopulationglobale,apartirdesonobservationsurunepartierestreintedecettepopulation(penserauxsondages).D'unecertainemaniere,ils'agitdoncd'induire(ouencored'inferer)duparticulieraugeneral.Leplussouvent,cepassagenepourrasefairequemoyennantdeshypothesesdetypeprobabiliste.Lestermesdestatistiqueinferentielle,statistiquemathematiqueetstatistiqueinductivesonteuxaussiquasimentsynonymes.Cettepartiedelastatistique,plusdelicate,n'estpastraiteedanscedocument.D'unpointdevuemethodologique,onnoteraquelastatistiquedescriptiveprecedeengenerallastatistiqueinferentielledansunedemarchedetraitementdedonnees:cesdeuxaspectsdelastatistiquesecompletentbienplusqu'ilsnes'opposent.1.
2) TerminologiedebaseOnpreciseiciuncertainnombredetermesstatistiquestrescourantsquiserontregulierementutilisesparlasuiteetqu'ilconvientdebienconna^tre.Population(oupopulationstatistique):ensembleconcerneparuneetudestatistique.Onparleaussidechampdel'etude.Sil'ons'interesseauxnotesd'ungrouped'etudiants,cegroupeconstituelapopulation.Anoterquesil'ons'interessemaintenantalacirculationautomobiledansToulouse,lapopula-tionestalorsconstitueedel'ensembledesvehiculessusceptiblesdecirculerdansToulouseaunedatedonnee.Letermedepopulationetdoncpluslargeenstatistiquequedanslelangagecourant.Individu(ouunitestatistique):ondesigneainsitoutelementdelapopulationconsideree.Danslesexemplesindiquesci-dessus,unindividuesttoutetudiantdugroupedanslepremiercasettoutvehiculesusceptibledecirculerdansToulousedanslesecond.Laencore,onconstatequeletermed'individuestpluslargeenstatistiquequedanslelangagecourant.Echantillon:dansuneetudestatistique,ilestfrequentquel'onn'observepaslapopulationtoutentiere(parexemple,onn'observepastouslesvehiculesayantcirculeunjourdonnedans1.2.TERMINOLOGIEDEBASE7Toulouse,maisseulementceuxetantpassesdanscertainspointsparticuliers).Lesobserva-tionsduphenomeneconsideresontdoncrealiseessurunepartierestreintedelapopulation,appeleeechantillon.Onappelledoncechantillonlesous-ensembledelapopulationsurlequelsonteectivementrealiseeslesobservations.Tailledel'echantillon:c'estlecardinaldel'echantillon,autrementditc'estlenombred'indi-vidusqu'ilcontient(echantillondetaille800,detaille1000 ).Engeneral,onnotenlatailledel'echantillonconsidere.Enqu^ete(statistique):c'estl'operationconsistantaobserver(oumesurer,ouquestionner )l'ensembledesindividusd'unechantillon(ou,eventuellement,delapopulationcomplete).Recensement:enqu^etedanslaquellel'echantillonobserveestenfaitlapopulationtoutentiere(onparleaussid'enqu^eteexhaustive).EnFrance,onorganiseainsi,defaconplusoumoinsreguliere,lerecensementgeneraldelapopulation,lerecensementgeneralagricole Sondage:c'est,aucontraire,uneenqu^etedanslaquellel'echantillonobserveestunsous-ensemblestrictdelapopulation(onparle,danscecas,d'enqu^etenonexhaustive).Lesexemplesdesondagesdanslaviecourantesont,denosjours,legion.Variable(statistique):c'estunecaracteristique(^age,salaire,sexe ),deniesurlapopulationetobserveesurl'echantillon.D'unpointdevuemathematique,unevariableestuneapplicationdeniesurl'echantillon.SicetteapplicationestavaleursdansIR(ensembledesnombresreels),oudansunepartiedeIR,elleestditequantitative(^age,salaire,taille );sinonelleestditequalitative(sexe,categoriesocio-professionnelle ).Onretiendraquelesvariablesquantitativessontcellesprenantdesvaleursnumeriquesetquelesvariablesqualitativessontcellesprenantdesvaleursnonnumeriques(enfaisantbienattentionaufaitqu'uncodagenerepresentepasunevaleur:m^emesioncode1leshommeset2lesfemmes,lavariable\sexe"demeurequalitative).Donnees(statistiques):letermededonneesesttresutiliseenstatistique.Ildesignel'ensembledesindividusobserves(ceuxdel'echantillon),l'ensembledesvariablesconsidereesetlesobservationsdecesvariablessurcesindividus.Lesdonneessontengeneralpresenteessousformedetableaux(individusenlignesetvariablesencolonnes)etstockeesdansunchierinformatique.Voiciuntoutpetitexemplededonnees:sexe^agerevenumensuelnetindividu11552068individu21414687individu31281235individu42641941individu523224568CHAPITRE1.INTRODUCTIONGENERALEALASTATISTIQUEChapitre2StatistiquedescriptiveunidimensionnelleOnconsidereiciunevariablestatistiqueunique,noteeX.L'objectifestd'exposerlesoutilselementaires,adaptesalanaturedeX,permettantdepresentercettevariabledefaconsynthetique,d'enfaireunerepresentationgraphiqueapproprieeetd'enresumerlesprincipalescaracteristiques.Nouspresenteronssuccessivementlecasd'unevariablequantitativediscrete,puisceluid'uneva-riablequantitativecontinue,ennlecasd'unevariablequalitative.2.
1) Casd'unevariablequantitativediscreteOnintroduittoutd'abordlanotiondetableaustatistique,faconsynthetiquedepresenterlesdonneesapresleurrangementparordrecroissant.Cetableaufaitintervenirlesnotionsassezelementairesd'eectif,defrequence(oupourcentage),d'eectifcumuleetdefrequencecumulee.Lesrepresentationsgraphiquesusuellesdecesvariablessontlediagrammeenb^atons(pourpo-sitionnerlesobservations)etlediagrammecumulatif(pourlesquantitescumulees).Enn,lescaracteristiquesnumeriquespermettantderesumerunevariablequantitativediscretesontsoitdetendancecentrale(medianeetmoyenne),soitdedispersion(varianceetecart-type).2.1.
1) IntroductionEngeneral,onappellevariablequantitativediscreteunevariablequantitativeneprenantquedesvaleursentieres(plusrarementdecimales).Lenombredevaleursdistinctesd'unetellevariableesthabituellementassezfaible(saufexception,moinsd'unevingtaine).Citons,parexemple,lenombred'enfantsdansunepopulationdefamilles,lenombred'anneesd'etudesapreslebacdansunepopulationd'etudiants Exemple1Onanotel'^age(arrondial'anneepres)des48salariesd'uneentreprise.Lesdonneessontlisteesci-dessous(ils'agitdedonneesctives).4329574550293759463146243338493162605238382641526049524138263759574129333343465746334649575746432.1.
2) PresentationdesdonneesLetableaustatistiqueLesobservationsci-dessusnesontpaspresenteesdefaconcommode.Ainsi,lapremiered'entreelles,43,gureautotal3foisdanslaliste.L'ideeestdenelafairegurerqu'uneseulefois,enprecisantqu'elleyestrepliquee3fois.Si,enplusden'^etrepasrepetees,lesdierentesobservationssontrangeesparordrecroissant,lesresultatsserontbienpluscommodesalire.C'estcequel'onfaitlorsqu'onpresentelesdonneessousformedetableaustatistique.910CHAPITRE2.STATISTIQUEDESCRIPTIVEUNIDIMENSIONNELLEOnappelledonctableaustatistiqueuntableaudontlapremierecolonnecomportel'ensembledesrobservationsdistinctesdelavariableX.Cesobservationssontrangeesparordrecroissantetnonrepetees;nouslesnoteronsfxi;i=1;:::;rg.Dansunesecondecolonne,ondispose,enfacedechaquevaleurxi,lenombredereplicationsquiluisontassociees.Cesreplicationssontappeleeseectifsetnoteesni(ainsi,ni=3lorsquexi=43:al'observation43estassociel'eectif3,autrementditlavaleur43aeteobservee3fois).Leseectifsnisontsouventremplacesparlesquantitesfi=nin,appeleesfrequences,souventexprimeesenpourcentages,c'est-a-diremultiplieespar100(ici,ndesignelenombretotald'observations:n=Pri=1ni=48;toujourspourxi=43,fi=348=0;0625=6;25%).Remarque1:Lesymbolesigma.Nousavonsutiliseci-dessuslesymbole(sigmama-juscule).Ils'agittoutsimplementd'unenotationpermettantderaccourcircertainesecritures.Ainsi,lorsqu'onfaitlasommedesvaleursindiceesni(leseectifsdelaserie),auliend'ecriren=n1++ni++nr,ilestpluscommoded'ecriren=Pri=1ni.Onpeutegalementecrire:n=rXi=1ni=i=rXi=1ni=rX1ni:Bienentendu,toutescesecrituresrepresententlam^emequantite.LeseectifscumulesetlesfrequencescumuleesIlpeut^etreutiledecompleterletableaustatistiqueenyrajoutantsoitleseectifscumules,soitlesfrequencescumulees.Cesquantitessontrespectivementdeniesdelafaconsuivante:Ni=iXj=1nj;Fi=iXj=1fj:Autrementdit,Nirepresentelenombred'observationsinferieuresouegalesaxietFileurfrequence(ouleurpourcentagesil'onconsidere100Fi).OnnoteraqueNr=netFr=1(biencomprendrepourquoiensereportantauTableau2.1).IllustrationDansletableau2.1,onacalcule,surlesdonneespresenteesdansl'Exemple1,leseectifs,leseectifscumules,lespourcentagesetlespourcentagescumules.Ilestconseilleaulecteurdereprendrelescalculspourbienencomprendreleprincipe.Remarque2Danslapratique,onutiliseplut^otlespourcentagesquelesfrequences.Ensuite,ilestraredepresenteralafoisleseectifsetlespourcentages(quifournissent,pratiquement,lam^emeinformation).Onchoisitdoncentrelesdeuxensemblesdequantites.Sil'onsouhaitedisposerdescumuls,onchoisitdem^emeentreeectifscumulesetpourcentagescumules.Lechoixentreeectifs(resp.eectifscumules)etpourcentages(resp.pourcentagescumules)esttresempirique.Ilsemblenatureldechoisirleseectifslorsquel'eectiftotalnestfaibleetlespourcentageslorsqu'ilestplusimportant.Lalimiteapproximativede100para^t,danscesconditions,assezraisonnable.2.1.
3) RepresentationsgraphiquesusuellesPourunevariablediscrete,onrencontreessentiellementdeuxsortesderepresentationsgra-phiquesquisont,enfait,complementaires:lediagrammeenb^atonsetlediagrammecumulatif(enescaliers).2.1.CASD'UNEVARIABLEQUANTITATIVEDISCRETE11xiniNifi(%)Fi(%)24112,082,0826234,176,2529366,2512,5031284,1716,67334128,3325,00372144,1729,17384188,3337,50413216,2543,75433246,2550,00451252,0852,084663112,5064,58493346,2570,83501352,0872,91523386,2579,165754310,4289,58592454,1793,75602474,1797,92621482,08100,00Total48|100,00|Tab.2.1{Tableaustatistiqueavecvaleursobservees,eectifs,eectifscumules,frequencesetfrequencescumulees.Effectif0123456Age203040506070Fig.2.1{Diagrammeenb^atons12CHAPITRE2.STATISTIQUEDESCRIPTIVEUNIDIMENSIONNELLEeffectifscumules01020304050age203040506070Fig.2.2{DiagrammecumulatifLediagrammeenb^atonsIlpermetdedonnerunevisiond'ensembledesobservationsrealisees.LaFigure2.1donnelediagrammeenb^atonsdesdonneesdel'Exemple1.Cediagrammecomportedoncunaxehorizontal(l'abscisse),surlequelgurentlesobservationsdelavariableconsideree(iciles^ages),etunaxevertical(l'ordonnee),surlequelgurentleseectifs(maisonauraitpu,toutaussibien,yfairegurerlesfrequencesoulespourcentages;celan'auraitrienchangeal'alluredugraphique,puisquelesfrequencessont,pardenition,proportionnellesauxeectifs).Enfacedechaqueobservationgureuntraitvertical(unb^aton),dontlahauteurestproportionnelleal'eectif(oualafrequence,ouaupourcentage)correspondant.LediagrammecumulatifCesecondtypedegraphiquesertavisualiserleseectifscumules,ouencorelesfrequencesoulespourcentagescumules.Ilpermetainsidedeterminersimplementlenombre,oulaproportion,d'observationsinferieuresouegalesaunevaleurdonneedelaserie.LaFigure2.2donnelediagrammecumulatifrelatifal'Exemple1.Onvoitquec'estcequ'onappelleunefonctionenescaliers(laraisonenestevidente!).Enabscissegurent,encoreunefois,lesobservationsdelavariableconsideree,tandisqu'enordonneegurentmaintenantleseectifscumules,lesfrequencescumuleesoulespourcentagescumules(laencore,l'alluregeneraledugraphiqueestlam^eme,quelquesoitlechoixeectue).Dansunpremiertemps,enfacedechaqueobservationgureunpointdontl'ordonneeestegaleal'eectifcumulecorrespondant.Ensuite,pourcompleterlegraphique,lesdierentspointssontjointspardessegmentshorizontauxpuisque,pardenition,lecumulresteconstantentredeuxobservations(lavariableconsidereeestdiscrete,cequisigniequ'entredeuxentiersiln'yapasd'observationpossible).2.1.
4) NotiondequantileetapplicationsDenitionOnavuquelafrequencecumuleeFi(0Fi1)donnelaproportiond'observationsinferieuresouegalesaxi.Uneapprochecomplementaireconsisteasedonner,apriori,unevaleur,comprise2.1.CASD'UNEVARIABLEQUANTITATIVEDISCRETE13entre0et1,etarechercherx,valeurtellequ'uneproportiondesobservationsluisontinferieuresouegales(autrementdit,xverieF(x)').Lavaleurx(quin'estpasnecessairementunique)estappeleequantile(oufractile)d'ordredelaserie.Lesquantileslesplusutilisessontassociesacertainesvaleursparticulieresde.Autrementdit,lequantiled'ordre,notex,esttelquelaproportiondesobservationsquiluisontinferieuresouegalesvaut,tandisquelaproportiondesobservationsquiluisontsuperieuresvaut1.LamedianeetlesquartilesLamedianeestlequantiled'ordre12.Ellepartagedonclaseriedesobservationsendeuxensemblesd'eectifsegaux.Reprenonslesdonneesdel'Exemple1etlacolonnedespourcentagescumulesduTableau2.1.Lepourcentagecumuleassociealavaleur43est50.Cela