PDFprof.com Search Engine



Statistique DescriptiveÉlémentaire

PDF
Images
List Docs
  • Quelles sont les statistiques descriptives ?

    Les statistiques descriptives, comme leur nom l'indique, sont utilisées pour résumer ou décrire l'ensemble de données.
    En ce qui concerne les ensembles de données, ce sont des observations ou de réponses recueillies auprès d'une population ou d'un échantillon d'une population.

  • Quels sont les 4 types de variables ?

    Ces types sont définis brièvement dans cette section.

    Variables catégoriques.
    Une variable catégorique (aussi appelée variable qualitative) réfère à une caractéristique qui n'est pas quantifiable. Variables nominales. Variables ordinales. Variables numériques. Variables continues. Variables discrètes.

  • Quels sont les deux types de statistiques ?

    Selon une terminologie classique, ce sont la statistique descriptive et la statistique mathématique.

  • Quel outil de statistiques descriptives choisir ?

    Quantitatives : il s'agit de variables qui décrivent une quantité. Qualitatives : réfèrent des variables qui décrivent une qualité non-quantifiable (ex: la couleur). Mixtes : incluent des variables quantitatives et qualitatives.
La statistique descriptive a pour but d'étudier un phénomène à partir de données. Cette description se fait à travers la présentation des données (la plus synthétique possible), leur représentation graphique et le calcul de résumés numériques.

Statistique DescriptiveÉlémentaire
Cours de statistique descriptive HAL
Résumé de cours de Statistiques descriptives
Filière Génie Informatique
Cycle Ingénieur en Génie Informatique
GÉNIE INFORMATIQUE
Génie Informatique
GUIDEDE L'ETUDIANT EN GÉNIE INFORMATIQUE
Cours de Génie Logiciel avec exercices résolus
Le génie informatique
Séquence de cours Génie Informatique 1 ANNÉE (30 crédits
Next PDF List

Statistique DescriptiveÉlémentaire

Publicationsdel'InstitutdeMathematiquesdeToulouseStatistiqueDescriptiveElementaire(versiondemai2010)AlainBacciniInstitutdeMathematiquesdeToulouse|UMRCNRS5219UniversitePaulSabatier|31062{Toulousecedex9.

2) Tabledesmatieres1Introductiongeneralealastatistique51. 1) Generalitessurlastatistique 51.1. 1) Denition 51.1. 2) Brefhistorique 51.1. 3) Statistiquedescriptiveetstatistiqueinferentielle 61. 2) Terminologiedebase 62Statistiquedescriptiveunidimensionnelle92. 1) Casd'unevariablequantitativediscrete .92.1. 1) Introduction 92.1. 2) Presentationdesdonnees 92.1. 3) Representationsgraphiquesusuelles 102.1. 4) Notiondequantileetapplications 122.1. 5) Caracteristiquesnumeriques 142. 2) Casd'unevariablequantitativecontinue .162.2. 1) Generalites .162.2. 2) Presentationdesdonnees 162.2. 3) Representationsgraphiques 172.2. 4) Determinationdesquantiles 182.2. 5) Determinationdesautrescaracteristiquesnumeriques 182.2. 6) Illustration .182. 3) Casd'unevariablequalitative 192.3. 1) Variablesnominalesetvariablesordinales 192.3. 2) Traitementsstatistiques .192.3. 3) Representationsgraphiques 203Statistiquedescriptivebidimensionnelle233. 1) Deuxvariablesquantitatives .233.1. 1) Lesdonnees .243.1. 2) Representationgraphique:lenuagedepoints 243.1. 3) Lacovarianceetlecoecientdecorrelationlineaire 253.1. 4) Quelquesexemples 273.1. 5) Regressionlineaireentredeuxvariables 293.1. 6) Generalisation:casdeplusdedeuxvariables 313. 2) Unevariablequantitativeetunequalitative 313.2. 1) Lesdonnees .323.2. 2) Representationgraphique:lesbo^tesparalleles .333.2. 3) Formulesdedecomposition 333.2. 4) Lerapportdecorrelation 343.2. 5) Unautreexemple 343. 3) Deuxvariablesqualitatives .353.3. 1) Lesdonneesetleurpresentation .353.3. 2) Lesrepresentationsgraphiques 363.3. 3) Lesindicesdeliaison:lekhi-deuxetsesderives 373.3.

4) Generalisation:letableaudeBurt 3934TABLEDESMATIERESChapitre1IntroductiongeneralealastatistiquePourxerlesidees,oncommencepardonnerunedenitiontresgeneraledelastatistique.Onfaitensuiteunbrefhistoriqueetl'onpreciseladierenceentrestatistiquedescriptive(objetdecedocument)etstatistiqueinferentielle(nontraiteeici).Ontermineparladenitiond'unedizainedetermesindispensablesalabonnecomprehensiondelasuitedececours.1.

1) Generalitessurlastatistique1.1.

1) DenitionIln'estpascommode,dansuneintroduction,dedonnerunedenitionpreciseduconceptdestatistique,alorsquesoncontenuseraenpartieelaboredanslasuitedececours.Nousnouscontenteronsdonc,pourxerlesidees,d'endonnerunedenitionvolontairementassezvague.Denition1OnappelleStatistiquel'ensembledesmethodes(ouencoredestechniques)per-mettantd'analyser(ondiraplut^otdetraiter)desensemblesd'observations(nousparleronsdedonnees).Lesmethodesenquestionreleventessentiellementdesmathematiquesetfontlargementappelal'outilinformatiquepourleurmiseenuvre.Pourevitertouteconfusion,onnoteraladistinctionentrelaStatistique,ausensdenici-dessus,etunestatistique,termeparfoisutilisepourdesignerdes\donneesstatistiques"(voircetermeplusloin);parexemple,onparledelastatistiqueducommerceexterieurdelaFrance.Danslasuitedececours,nousn'utiliseronspasletermedestatistiquedanscederniersens.1.1.

2) BrefhistoriqueDefaconunpeugrossiere,onpeutdistinguertroisphasesessentiellesdansl'evolutiondelastatistique.{Depuisl'antiquite(onfaitremonterlespremieresmanifestationsdelastatistiquealahauteEgypte,avecl'enregistrementdescruesduNil)etjusqu'alandu19iemesiecle,lastatistiqueestresteeprincipalementunensembledetechniquesdedenombrement:comptaged'unepopulation(ourecensement,voircemotplusloin),deseectifsd'unearmee(onenimagineaisementl'objectif!),etc.Lestechniquesetaienttresrudimentairesetleurmiseenuvrerestaitl'apanagedupouvoirpolitique.{Entrelandu19iemesiecleetlesannees1960,s'estconstruit,notammentalasuitedel'ecoleanglaise,lastatistiquemathematique(oustatistiqueinferentielle,voirplusloin).Ledeveloppementdelastatistiqueaucoursdecetteperiodea,enfait,suivilemouvementgeneraldedeveloppementdessciences,notammentdesmathematiques,delaphysiqueetdelatheoriedesprobabilites.56CHAPITRE1.INTRODUCTIONGENERALEALASTATISTIQUE{Depuislesannees1960,avecledeveloppementetlabanalisationdesoutilsinformatiquesetgraphiques,lastatistique,etsurtoutlastatistiquedescriptivemultidimensionnelle,aconnuuneexpansionconsiderable.Atitred'illustration,penseraungraphiquedetype\camembert"(voirlechapitre2):ilestimmediatdelerealiseraujourd'huiavecn'importequeltableurtelqu'Excel(m^emesileresultatpeutparfois^etrecontestable );jusquedanslesannees1985/90,realiseruntelgra-phiquedefaconrigoureusesefaisait\alamain"etnecessitaitdesoutilstelsquerapporteur,compas ,unebonnedosed'applicationetdepatience,etuntempsnonnegligeable.1.1.

3) StatistiquedescriptiveetstatistiqueinferentielleDemaniereunpeuapproximative,ilestpossibledeclasserlesmethodesstatistiquesendeuxgroupes:celuidesmethodesdescriptivesetceluidesmethodesinferentielles.{Lastatistiquedescriptive.Onregroupesouscetermelesmethodesdontl'objectifprincipalestladescriptiondesdonneesetudiees.Cettedescriptiondesdonneessefaitatraversleurpresentation(lapluscommodeetlaplussynthetiquepossible),leurrepresentationgraphiqueetlecalculderesumesnumeriques(oucaracteristiquesnumeriques).Danscetteoptique,aucunehypothesedetypeprobabilisten'estfaitesurlesdonneesconsiderees(parexemple,iln'estpasnecessairedesupposerquelesdonneessontlesobservationsd'uneloinormale).Lestroisdirectionssignaleesci-dessus(presentation,representationsgraphiquesetcalculderesumesnumeriques)servirontdeguidedanslasuitedececours.Onnoteraquelestermesdestatistiquedescriptive,statistiqueexploratoireetanalysedesdonneessontquasimentsynonymes.{Lastatistiqueinferentielle.Cetermeregroupelesmethodesdontl'objectifprincipalestdepreciserunphenomenesurunepopulationglobale,apartirdesonobservationsurunepartierestreintedecettepopulation(penserauxsondages).D'unecertainemaniere,ils'agitdoncd'induire(ouencored'inferer)duparticulieraugeneral.Leplussouvent,cepassagenepourrasefairequemoyennantdeshypothesesdetypeprobabiliste.Lestermesdestatistiqueinferentielle,statistiquemathematiqueetstatistiqueinductivesonteuxaussiquasimentsynonymes.Cettepartiedelastatistique,plusdelicate,n'estpastraiteedanscedocument.D'unpointdevuemethodologique,onnoteraquelastatistiquedescriptiveprecedeengenerallastatistiqueinferentielledansunedemarchedetraitementdedonnees:cesdeuxaspectsdelastatistiquesecompletentbienplusqu'ilsnes'opposent.1.

2) TerminologiedebaseOnpreciseiciuncertainnombredetermesstatistiquestrescourantsquiserontregulierementutilisesparlasuiteetqu'ilconvientdebienconna^tre.Population(oupopulationstatistique):ensembleconcerneparuneetudestatistique.Onparleaussidechampdel'etude.Sil'ons'interesseauxnotesd'ungrouped'etudiants,cegroupeconstituelapopulation.Anoterquesil'ons'interessemaintenantalacirculationautomobiledansToulouse,lapopula-tionestalorsconstitueedel'ensembledesvehiculessusceptiblesdecirculerdansToulouseaunedatedonnee.Letermedepopulationetdoncpluslargeenstatistiquequedanslelangagecourant.Individu(ouunitestatistique):ondesigneainsitoutelementdelapopulationconsideree.Danslesexemplesindiquesci-dessus,unindividuesttoutetudiantdugroupedanslepremiercasettoutvehiculesusceptibledecirculerdansToulousedanslesecond.Laencore,onconstatequeletermed'individuestpluslargeenstatistiquequedanslelangagecourant.Echantillon:dansuneetudestatistique,ilestfrequentquel'onn'observepaslapopulationtoutentiere(parexemple,onn'observepastouslesvehiculesayantcirculeunjourdonnedans1.2.TERMINOLOGIEDEBASE7Toulouse,maisseulementceuxetantpassesdanscertainspointsparticuliers).Lesobserva-tionsduphenomeneconsideresontdoncrealiseessurunepartierestreintedelapopulation,appeleeechantillon.Onappelledoncechantillonlesous-ensembledelapopulationsurlequelsonteectivementrealiseeslesobservations.Tailledel'echantillon:c'estlecardinaldel'echantillon,autrementditc'estlenombred'indi-vidusqu'ilcontient(echantillondetaille800,detaille1000 ).Engeneral,onnotenlatailledel'echantillonconsidere.Enqu^ete(statistique):c'estl'operationconsistantaobserver(oumesurer,ouquestionner )l'ensembledesindividusd'unechantillon(ou,eventuellement,delapopulationcomplete).Recensement:enqu^etedanslaquellel'echantillonobserveestenfaitlapopulationtoutentiere(onparleaussid'enqu^eteexhaustive).EnFrance,onorganiseainsi,defaconplusoumoinsreguliere,lerecensementgeneraldelapopulation,lerecensementgeneralagricole Sondage:c'est,aucontraire,uneenqu^etedanslaquellel'echantillonobserveestunsous-ensemblestrictdelapopulation(onparle,danscecas,d'enqu^etenonexhaustive).Lesexemplesdesondagesdanslaviecourantesont,denosjours,legion.Variable(statistique):c'estunecaracteristique(^age,salaire,sexe ),deniesurlapopulationetobserveesurl'echantillon.D'unpointdevuemathematique,unevariableestuneapplicationdeniesurl'echantillon.SicetteapplicationestavaleursdansIR(ensembledesnombresreels),oudansunepartiedeIR,elleestditequantitative(^age,salaire,taille );sinonelleestditequalitative(sexe,categoriesocio-professionnelle ).Onretiendraquelesvariablesquantitativessontcellesprenantdesvaleursnumeriquesetquelesvariablesqualitativessontcellesprenantdesvaleursnonnumeriques(enfaisantbienattentionaufaitqu'uncodagenerepresentepasunevaleur:m^emesioncode1leshommeset2lesfemmes,lavariable\sexe"demeurequalitative).Donnees(statistiques):letermededonneesesttresutiliseenstatistique.Ildesignel'ensembledesindividusobserves(ceuxdel'echantillon),l'ensembledesvariablesconsidereesetlesobservationsdecesvariablessurcesindividus.Lesdonneessontengeneralpresenteessousformedetableaux(individusenlignesetvariablesencolonnes)etstockeesdansunchierinformatique.Voiciuntoutpetitexemplededonnees:sexe^agerevenumensuelnetindividu11552068individu21414687individu31281235individu42641941individu523224568CHAPITRE1.INTRODUCTIONGENERALEALASTATISTIQUEChapitre2StatistiquedescriptiveunidimensionnelleOnconsidereiciunevariablestatistiqueunique,noteeX.L'objectifestd'exposerlesoutilselementaires,adaptesalanaturedeX,permettantdepresentercettevariabledefaconsynthetique,d'enfaireunerepresentationgraphiqueapproprieeetd'enresumerlesprincipalescaracteristiques.Nouspresenteronssuccessivementlecasd'unevariablequantitativediscrete,puisceluid'uneva-riablequantitativecontinue,ennlecasd'unevariablequalitative.2.

1) Casd'unevariablequantitativediscreteOnintroduittoutd'abordlanotiondetableaustatistique,faconsynthetiquedepresenterlesdonneesapresleurrangementparordrecroissant.Cetableaufaitintervenirlesnotionsassezelementairesd'eectif,defrequence(oupourcentage),d'eectifcumuleetdefrequencecumulee.Lesrepresentationsgraphiquesusuellesdecesvariablessontlediagrammeenb^atons(pourpo-sitionnerlesobservations)etlediagrammecumulatif(pourlesquantitescumulees).Enn,lescaracteristiquesnumeriquespermettantderesumerunevariablequantitativediscretesontsoitdetendancecentrale(medianeetmoyenne),soitdedispersion(varianceetecart-type).2.1.

1) IntroductionEngeneral,onappellevariablequantitativediscreteunevariablequantitativeneprenantquedesvaleursentieres(plusrarementdecimales).Lenombredevaleursdistinctesd'unetellevariableesthabituellementassezfaible(saufexception,moinsd'unevingtaine).Citons,parexemple,lenombred'enfantsdansunepopulationdefamilles,lenombred'anneesd'etudesapreslebacdansunepopulationd'etudiants Exemple1Onanotel'^age(arrondial'anneepres)des48salariesd'uneentreprise.Lesdonneessontlisteesci-dessous(ils'agitdedonneesctives).4329574550293759463146243338493162605238382641526049524138263759574129333343465746334649575746432.1.

2) PresentationdesdonneesLetableaustatistiqueLesobservationsci-dessusnesontpaspresenteesdefaconcommode.Ainsi,lapremiered'entreelles,43,gureautotal3foisdanslaliste.L'ideeestdenelafairegurerqu'uneseulefois,enprecisantqu'elleyestrepliquee3fois.Si,enplusden'^etrepasrepetees,lesdierentesobservationssontrangeesparordrecroissant,lesresultatsserontbienpluscommodesalire.C'estcequel'onfaitlorsqu'onpresentelesdonneessousformedetableaustatistique.910CHAPITRE2.STATISTIQUEDESCRIPTIVEUNIDIMENSIONNELLEOnappelledonctableaustatistiqueuntableaudontlapremierecolonnecomportel'ensembledesrobservationsdistinctesdelavariableX.Cesobservationssontrangeesparordrecroissantetnonrepetees;nouslesnoteronsfxi;i=1;:::;rg.Dansunesecondecolonne,ondispose,enfacedechaquevaleurxi,lenombredereplicationsquiluisontassociees.Cesreplicationssontappeleeseectifsetnoteesni(ainsi,ni=3lorsquexi=43:al'observation43estassociel'eectif3,autrementditlavaleur43aeteobservee3fois).Leseectifsnisontsouventremplacesparlesquantitesfi=nin,appeleesfrequences,souventexprimeesenpourcentages,c'est-a-diremultiplieespar100(ici,ndesignelenombretotald'observations:n=Pri=1ni=48;toujourspourxi=43,fi=348=0;0625=6;25%).Remarque1:Lesymbolesigma.Nousavonsutiliseci-dessuslesymbole(sigmama-juscule).Ils'agittoutsimplementd'unenotationpermettantderaccourcircertainesecritures.Ainsi,lorsqu'onfaitlasommedesvaleursindiceesni(leseectifsdelaserie),auliend'ecriren=n1++ni++nr,ilestpluscommoded'ecriren=Pri=1ni.Onpeutegalementecrire:n=rXi=1ni=i=rXi=1ni=rX1ni:Bienentendu,toutescesecrituresrepresententlam^emequantite.LeseectifscumulesetlesfrequencescumuleesIlpeut^etreutiledecompleterletableaustatistiqueenyrajoutantsoitleseectifscumules,soitlesfrequencescumulees.Cesquantitessontrespectivementdeniesdelafaconsuivante:Ni=iXj=1nj;Fi=iXj=1fj:Autrementdit,Nirepresentelenombred'observationsinferieuresouegalesaxietFileurfrequence(ouleurpourcentagesil'onconsidere100Fi).OnnoteraqueNr=netFr=1(biencomprendrepourquoiensereportantauTableau2.1).IllustrationDansletableau2.1,onacalcule,surlesdonneespresenteesdansl'Exemple1,leseectifs,leseectifscumules,lespourcentagesetlespourcentagescumules.Ilestconseilleaulecteurdereprendrelescalculspourbienencomprendreleprincipe.Remarque2Danslapratique,onutiliseplut^otlespourcentagesquelesfrequences.Ensuite,ilestraredepresenteralafoisleseectifsetlespourcentages(quifournissent,pratiquement,lam^emeinformation).Onchoisitdoncentrelesdeuxensemblesdequantites.Sil'onsouhaitedisposerdescumuls,onchoisitdem^emeentreeectifscumulesetpourcentagescumules.Lechoixentreeectifs(resp.eectifscumules)etpourcentages(resp.pourcentagescumules)esttresempirique.Ilsemblenatureldechoisirleseectifslorsquel'eectiftotalnestfaibleetlespourcentageslorsqu'ilestplusimportant.Lalimiteapproximativede100para^t,danscesconditions,assezraisonnable.2.1.

3) RepresentationsgraphiquesusuellesPourunevariablediscrete,onrencontreessentiellementdeuxsortesderepresentationsgra-phiquesquisont,enfait,complementaires:lediagrammeenb^atonsetlediagrammecumulatif(enescaliers).2.1.CASD'UNEVARIABLEQUANTITATIVEDISCRETE11xiniNifi(%)Fi(%)24112,082,0826234,176,2529366,2512,5031284,1716,67334128,3325,00372144,1729,17384188,3337,50413216,2543,75433246,2550,00451252,0852,084663112,5064,58493346,2570,83501352,0872,91523386,2579,165754310,4289,58592454,1793,75602474,1797,92621482,08100,00Total48|100,00|Tab.2.1{Tableaustatistiqueavecvaleursobservees,eectifs,eectifscumules,frequencesetfrequencescumulees.Effectif0123456Age203040506070Fig.2.1{Diagrammeenb^atons12CHAPITRE2.STATISTIQUEDESCRIPTIVEUNIDIMENSIONNELLEeffectifscumules01020304050age203040506070Fig.2.2{DiagrammecumulatifLediagrammeenb^atonsIlpermetdedonnerunevisiond'ensembledesobservationsrealisees.LaFigure2.1donnelediagrammeenb^atonsdesdonneesdel'Exemple1.Cediagrammecomportedoncunaxehorizontal(l'abscisse),surlequelgurentlesobservationsdelavariableconsideree(iciles^ages),etunaxevertical(l'ordonnee),surlequelgurentleseectifs(maisonauraitpu,toutaussibien,yfairegurerlesfrequencesoulespourcentages;celan'auraitrienchangeal'alluredugraphique,puisquelesfrequencessont,pardenition,proportionnellesauxeectifs).Enfacedechaqueobservationgureuntraitvertical(unb^aton),dontlahauteurestproportionnelleal'eectif(oualafrequence,ouaupourcentage)correspondant.LediagrammecumulatifCesecondtypedegraphiquesertavisualiserleseectifscumules,ouencorelesfrequencesoulespourcentagescumules.Ilpermetainsidedeterminersimplementlenombre,oulaproportion,d'observationsinferieuresouegalesaunevaleurdonneedelaserie.LaFigure2.2donnelediagrammecumulatifrelatifal'Exemple1.Onvoitquec'estcequ'onappelleunefonctionenescaliers(laraisonenestevidente!).Enabscissegurent,encoreunefois,lesobservationsdelavariableconsideree,tandisqu'enordonneegurentmaintenantleseectifscumules,lesfrequencescumuleesoulespourcentagescumules(laencore,l'alluregeneraledugraphiqueestlam^eme,quelquesoitlechoixeectue).Dansunpremiertemps,enfacedechaqueobservationgureunpointdontl'ordonneeestegaleal'eectifcumulecorrespondant.Ensuite,pourcompleterlegraphique,lesdierentspointssontjointspardessegmentshorizontauxpuisque,pardenition,lecumulresteconstantentredeuxobservations(lavariableconsidereeestdiscrete,cequisigniequ'entredeuxentiersiln'yapasd'observationpossible).2.1.

4) NotiondequantileetapplicationsDenitionOnavuquelafrequencecumuleeFi(0Fi1)donnelaproportiond'observationsinferieuresouegalesaxi.Uneapprochecomplementaireconsisteasedonner,apriori,unevaleur,comprise2.1.CASD'UNEVARIABLEQUANTITATIVEDISCRETE13entre0et1,etarechercherx,valeurtellequ'uneproportiondesobservationsluisontinferieuresouegales(autrementdit,xverieF(x)').Lavaleurx(quin'estpasnecessairementunique)estappeleequantile(oufractile)d'ordredelaserie.Lesquantileslesplusutilisessontassociesacertainesvaleursparticulieresde.Autrementdit,lequantiled'ordre,notex,esttelquelaproportiondesobservationsquiluisontinferieuresouegalesvaut,tandisquelaproportiondesobservationsquiluisontsuperieuresvaut1.LamedianeetlesquartilesLamedianeestlequantiled'ordre12.Ellepartagedonclaseriedesobservationsendeuxensemblesd'eectifsegaux.Reprenonslesdonneesdel'Exemple1etlacolonnedespourcentagescumulesduTableau2.1.Lepourcentagecumuleassociealavaleur43est50.Cela