[PDF] [PDF] Apprentissage Statistique - Institut de Mathématiques de Toulouse

L'analyse des offres de stage et d'emploi montre de profonds changements dans Ils le sont systématiquement lors des essais cliniques dans un cadre législatif Échantillon indépendant de même loi et estimateur indépendant de l'ordre des Voici quelques résultats partiels concernant les méthodes de régression par



Previous PDF Next PDF





[PDF] Analyse stochastique de la CRM à ordre partiel dans le cadre des

Cette étude s'inscrit dans le cadre de recherche de doses pour des essais cliniques de Phase I dans le cas de traitements contre le cancer Les essais cliniques 



[PDF] Apprentissage Statistique - Institut de Mathématiques de Toulouse

L'analyse des offres de stage et d'emploi montre de profonds changements dans Ils le sont systématiquement lors des essais cliniques dans un cadre législatif Échantillon indépendant de même loi et estimateur indépendant de l'ordre des Voici quelques résultats partiels concernant les méthodes de régression par



[PDF] Apprentissage Statistique & Data mining - Département de

traitement et l'analyse d'ensembles de données tr`es volumineux CRM) vise `a une individualisation ou personnalisation de la production et de la communication afin lors des essais cliniques dans un cadre législatif stricte mais aussi lors value”)associée `a la statistique partielle du test de Fisher qui compare les 



[PDF] modele couverture briques 2018-2019_sv - ENSAI

d'essais cliniques et l'analyse des données Omics permettent en particulier aux étudiants de recevoir une solide formation pour des applications dans le secteur  



[PDF] Thèse de Doctorat - évaluation de lacceptabilité - Université de

2 4 Expérimentation et analyse des outils de co-conception sur une étude de 2 5 Essai d'une combinaison permettant d'expérimenter les déficiences liées le processus de conception (dans le cadre de ce mémoire la phase de luées dans quatre niveaux d'innovation par ordre croissant : Passive, Clinique, 1994)



[PDF] Introduction à lanalyse bayésienne et à ses - Boris Hejblum

4 3 Essai clinique adaptatifs de phase I/II : analyse bayésienne et méthodes de Dans le cadre de la statistique bayésienne l'expression latine a priori est certaines hypothèses (cas iid, densités dérivables trois fois, existence de moments d'ordre 2) Une chaîne de Markov est un processus stochastique à temps discret



[PDF] RAPPORT ANNUEL 2017-2018 - Centre de recherches

Comités à la tête du CRM 61 'étude et l'emploi de modèles stochastiques et de techniques d'inférence statistique dépendance, la théorie des valeurs extrêmes et l'analyse des séries chronologiques le risque s'inscrivait dans le cadre des Mathématiques ment des soins, de la conception des essais cliniques



pdf Analyse stochastique de la CRM à ordre partiel dans le cadre

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Roxane Duroux 1 Cadre de l’étude Cetteétudes’inscritdanslecadrederecherchededosespourdesessaiscliniquesdePhaseIdanslecas detraitementscontrelecancer Les essais cliniques constituent un ensemble de tests préliminaires à la mise sur le marché d



Springer

1 Quelques ´el´ements d’analyse stochastique Dans ce chapitre nous pr´esentons les concepts et r´esultats d’analyse stochastique utiles pour ce cours Il y a de nombreux

[PDF] UNIVERSITE PARIS 10 (NANTERRE) Référence GALAXIE : 4356

[PDF] Travail social et personnes dépendantes - Mesures ambulatoires. Champs de pratiques du travail social au Luxembourg II Octobre 2013 Nadine Medinger

[PDF] Effectifs et taux de réponse par discipline

[PDF] Des commentaires? Des questions? Des plaintes? Vous trouverez à l intérieur les ressources à votre disposition

[PDF] La démarche palliative à domicile...23 Organisation des soins palliatifs...24 Les acteurs du domicile...25

[PDF] EXTRAIT DU REGISTRE DES DELIBERATIONS DU CONSEIL MUNIC I PAL

[PDF] 2010 Analyse conjoncturelle de l économie et de l industrie de la construction résidentielle Service du développement des affaires et des

[PDF] mieux développer votre activité

[PDF] CAISSE À OUTILS. Année scolaire 2016-2017

[PDF] SPIRE n 402 513 ARCOLE n SIGBC n

[PDF] Manuel Asile et retour

[PDF] CONTRAT D ABONNEMENT LOL MOBILE

[PDF] 2 e TRIMESTRE : Survol du marché de l habitation de la Canada Guaranty AVRIL À JUIN 2010

[PDF] Rencontre Inter-Régionale organisée par l ASIP Santé

[PDF] Master MEEF. «Métiers de l Enseignement, de l Education et de la Formation»

Science des données - 3

Apprentissage Statistique

PHILIPPEBESSE

NB. Les cours et travaux pratiques (scénarios, ateliers) des siteswikistat.fretgithub.com/wikistat.frsont dispensés

en formation initiale à l"

INSA de Toulouse

dans la spécialité : Ingénieur en

Mathématiques Appliquées

. Ils sont également proposés dans le cadre de stages de

F ormationPr ofessionnelleQualifiante

.Équipe de Statistique et Probabilités Institut de Mathématiques de Toulouse - UMR CNRS C5219 Département Génie Mathématique et Modélisation Institut National des Sciences Appliquées de Toulouse - 31077 - Toulouse cedex 4.

Table des matières

Statistique & Science des Donnéespage 1

Statistique & Apprentissagepage 5

Qualité de prévision et risquepage 16

Sélection de modèle en régression multiplepage 28

Régression logistiquepage 45

Régression PLS, ACP et PLS parcimonieusespage 53

Analyse discriminante décisionnellepage 64

Arbres binaires de décisionpage 70

Réseaux neuronauxpage 79

Agrégation de modèlespage 88

Machines à vecteurs supportspage 102

Imputation de données manquantespage 109

Détection d"anomaliespage 119

En guise de conclusionpage 128

Attentionce cours est dense, la lecture de ce document ne suffira pas à la bonne compréhension des outils qui y sont décrits de

façon synthétique. La présence aux cours et la participation active aux TDs sont indispensables à l"acquisition des compétences

incontournables pour une utilisation raisonnable et raisonnée des techniques d"apprentissage statistique. Toutes les méthodes sont

développées sous la forme de tutoriels disponibles dans le dépôtgithub.com/Wikistat.

1De la Statistique à la Science des (g rosses)Données

De la Statistique à la Science des

(grosses) Données

Résumé

le volume et la diversité des données explosent, les technologies se succèdent, les modèles et algorithmes se complexifient. L"estima- tion devient un apprentissage, la prévision remplace l"explication. Le parcours pour devenirdata scientistest structuré en quatre parties : Saison 1(L3)Statistiqueélémentaire,descriptivevs.inférentielle. Saison 2(M1)StatistiqueExploratoiremultidimensionnelleetap- prentissage non supervisé. Saison 3Apprentissage Statistique / Machinesupervisé. Saison 4(M2)Technologies pour la Science des (grosses) Don- nées plus des réflexions sur :Statistique et Déontologie scientifique.

1 Origines de laData Science

Le terme dedata scientistà été "inventé" par Dhanurjay "DJ" Patil (Linke- dIn) métiers des données pour afficher des offres d"emploi :Analyste, ça fait trop Wall Street; statisticien, ça agace les économistes; chercheur scientifique, ça fait trop académique. Pourquoi pas "data scientist"? Une "définition" attribuée à J. Wills (Cloudera) est souvent reprise :Data scientist(n) : Person who is better at statistics than any software engineer and better at software than any statistician La Sciencedes Donnéesn"est pasune nouvellescience crééeex nihilomais

l"association de compétences (informatique, mathématiques, métiers) résultat1. Entretien publié dans unarticle de l"Obs.d"une longue évolution parallèle à celle des moyens de calcul et des volumesde données concernés. Cette évolution est passée par l"analyse des données

en France, l" Exploratory Data Analysisou EDA au USA, ledata miningou fouille des données puis laBioinformatique. En voici un bref résumé nécessairement schématique avec une chronologie linéaire :

1930-70 - hOctetsIl était une fois laStatistique(inférentielle) : une ques-

tion, ( e.g.biologique), associée à unehypothèse expérimentalement ré- futableH0, une expérienceplanifiéeavec un échantillonreprésentatif den30individus observés surp(moins de 10) variables, un modèle linéaire gaussiensupposévrai, un test, une décision, donc une réponse qui peut être inférée à la population en contrôlant le risque (générale- ment 5%) de rejeter à tortH0.

1970s - kOLespremiersoutilsinformatiquessegénéralisantet,pouréchap-

per à l"impérialisme du modèle linéaire, l" analyse des données(Caillez et Pages, 1976)[ ] se développe en France; l"

Exploratory Data Ana-

lysisou EDA aux États-Unis (Tukey 1977)[?]. L"objectif est alors de décrire ou explorer, prétendument sans modèle, des données déjà plus volumineuses.

1980s - MOEnIntelligenceArtificielle(IA),lessystèmesexpertsexpirent,

supplantés par l"apprentissage desréseaux de neurones. La Statistique développe des modèles non-paramétriques ou fonctionnels.

1990s - GOData MiningetPremier changement de paradigme. Les don-

nées ne sont plusplanifiées, elles sont préalablement acquises et ba- sées dans des entrepôts pour les objectifs usuels ( e.g.comptables) de l"entreprise. L"aide à la décision les valorise :From Data Mining to Knowledge Discovery(Fayyad; 1997)[?]. Les logiciels de fouille re- groupent dans un même environnement des outils de gestions de bases de données, des techniques exploratoires et de modélisation statistique. C"est l"avènement du marketing quantitatif et de la gestion de la re- lation client (GRC ou CRM). L"IA se développe avec l"émergence du

Machine Learning

) dont un sous-ensemble de méthodes est mis en exergue par le livre de Vapnik (1998) :The Nature of Statistical Lear- ning Theory .Philippe BesseINSA de Toulouse - Mathématiques Appliquées1

2De la Statistique à la Science des (g rosses)Données

2000s -TODeuxième changement de paradigme. Le nombrepde va-

riables explose (de l"ordre de104à106), notamment avec les biotech- nologies omiques oùp >> net la Bioinformatique. Le FDR (False

Discovery Rate

) de Benjamini et Hochberg (1995)[ ] se substitue à lap-valeur et l"Apprentissage Statistique (Hastie et al. 2009)[?] sélec- tionne des modèles en optimisant leur complexité par un meilleur com- (biais) et erreur d" estimation(variance).

2010s - POTroisième changement de paradigme. Dans les applications

industrielles, le e-commerce, avec la géo-localisation, ladatafication du quotidien où toutes les traces numériques sont enregistrées, c"est le nombrend"individus qui explose; les statistiques usuelles de test, toutes significatives, perdent leur utilité au profit des méthodes d"ap- prentissage non supervisées ou supervisées; les bases de données se déstructurent et se stockent dans les nuages (cloud computing), les moyens de calculs se groupent ( cluster), mais la puissance brute ne suffit plus à la voracité ( greed) des algorithmes. Un troisième terme d"erreur est à prendre en compte : celle d" optimisation , induite par la limitation du temps de calcul ou celle du volume des données consi- déré; leur flux nécessite la construction de décisions adaptatives ou séquentielles. Une présentation plus détaillée de la "science des données" et ses implica- tions notamment économiques est proposée parBesse et Laurent (2015).

2 Environnement logiciel

2.1 Logiciels de fouille de données

mining ), les éditeurs de logiciels commerciaux et les communautés de logiciels libres ont inclus dans leurs suites, en plus des modèles linéaires classiques, les différents algorithmes d"apprentissage au fur et à mesure de leur apparition. Ceux-ci ont été intégrés à un ensemble plus complet de traitement des données en connexion avec les gestionnaires de bases de données relationnelles, le tout pilotable par une interface graphique plus ou moins conviviale :Clementinede SPSS,Enterprise Minerde SAS,Insightfull Minerde Splus, KXEN, SPAD,FIGURE1 -À copier 100 fois.

Statistica Data Miner

, Statsoft, WEKA... Leur apparente simplicité d"utilisa- tion a largement contribué à la diffusion de méthodes sophistiquées dans des milieux difficilement perméables à une conceptualisation mathématique abs- traite et peu armés pour des développements logiciels importants.

2.2 Rvs.Python

et Python (Rossum et Guido; 1995)[ ] jouent un rôle particulier. L"analyse des offres de stage et d"emploi montre de profonds changements dans les de- mandes. SAS, plébiscité jusqu"à la fin du siècle dernier est largement supplanté par R et maintenant Python pour des raisons d"évidente économie mais aussi de flexibilité. R Toute méthode d"apprentissage est implémentée en R sous la forme d"une librairie ( package ) librement accessible. C"est même le mode de diffusion pri-

vilégié de nouvelles méthodes. Pour faciliter la tâche de leurs utilisateurs etPhilippe BesseINSA de Toulouse - Mathématiques Appliquées2

3De la Statistique à la Science des (g rosses)Données

surtout uniformiser l"intégration de méthodes développés par des auteurs dif- férents, Kuhn (2008)[ ] propose une méta-librairie ( caret) pouvant exécuter plus de 200 méthodes ou variantes de méthodes à partir de la même syntaxe. Néanmoins et comme Matlab, R est un langage interprété; même en utilisant des librairies spécifiques pour paralléliser certains calculs compilés en C, les temps d"exécution de R deviennent vite rédhibitoires avec des données un peu volumineuses. De plus, son utilisation est rendue impossible (ou très difficile) dès que les limites de la mémoire interne de l"ordinateur sont atteintes.

Python

Plus récent Ross (1995)[

], le langage Python s"est considérablement dé- veloppé notamment pour le traitement et l"analyse de signaux, images et sé- ries financières. Python permet de paralléliser facilement la préparation ( data munging ) de grosses données sans les charger en mémoire avant de passer à la phase d"exploration puis de modélisation qui est elle toujours traitée en char- geant les données en mémoire. Une des librairies :Scikit-learn(Pedregosa et al. 2011)[?] met à disposi- tion les principales méthodes d"apprentissage supervisées ou non. Cette librai- rie n"est pas ouverte au sens où le choix d"implémentation d"une méthode est décidé au sein du groupe des développeurs principaux. L"avantage est un dé- veloppement intégré et homogène, l"inconvénient, qui peut être aussi un avan- tage, est un choix plus restreint de méthodes accessibles. Également interprété, Python s"avère beaucoup plus rapide que R en gérant par défaut les possibilités de parallélisation d"une machine, même sous Windows.

Rvs. Scikit-Learn

Le choix entre ces deux environnements repose sur les quelques points suivants : R et ses librairies offrent beaucoup plus de possibilités pour une explo- ration, des sélections et comparaisons de modèles, des interprétations statistiques détaillées avec des graphes produits par défaut.

Mise en oeuvre souvent implicite des possibilités de parallélisation,même sous Windows, par les librairies de Python.

Scikit-Learnne reconnaît pas (ou pas encore?) la classeDataFrame développée dans la librairiepandas. Cette classe est largement utilisée

en R pour gérer différents types de variables. C"est un problème dansScikit-Learnpour la prise en compte de variables qualitatives com-

plexes. Une variable binaire est simplement remplacée par une indica- trice(0;1)mais, en présence de plusieurs modalités, une variable qua- litative est remplacée par l"ensemble des indicatrices ( dummyvariables (0 ;1)) de ses modalités. Ceci complique les stratégies de sélection de modèles et rend obscure leur interprétation. En résumé, préférer R pour modéliser et interpréter des modèles statistiques mais préférer Python pour des modélisations efficaces à seule fin prédictive au détriment de l"interprétation. Les deux approches pouvant d"ailleurs être traitées de façon complémentaire. Enfin, si les données sont trop volumineuses pour la mémoire interne voire pour le disque d"un ordinateur, ou encore si les données sont déjà archivées sur une architecture distribuée, d"autres approches sont à considérer et abordées en saison 4avec Spark.

2.3 Reproductibilité des analyses

Donoho(2015)[

ductibilité des analyses. Les médias se font régulièrement l"écho de manque- ments déontologiques et plus généralement du problème récurrent du manque de reproductibilité des résultats publiés dans des journaux ou revues que ce soit par exemple en Biologie ou en Psychologie. Pour un statisticien, contri- buer à la prise en compte de ces problèmes consiste à produire des chaînes de traitements ou d"analyses ( pipeline ) facilement transmissibles pour être repro- lièrement. Le premier concerne l"automatisation de la production d"un rapport en intégrant des commandes R (librairiesweaveouknitr) ou Python (pweave) au sein d"un source L ATEX. Ces commandes, automatiquement exécutées, pro- voquent l"insertion de tableaux ou graphiques. Le deuxième, plus en amont, consiste à enregistrer systématiquement l"enchaînement des commandes et de leurs résultats numériques ou graphique dans un calepin ( notebook IPythonou

Jupyter

). La sauvegarde est faite sous un format ré-exécutable dans un environ- nement similaire ou sous forme de fichier au formathtml, pdf. Ce type de résultat est obtenu en exécutant le bon noyau (Python, R, Julia...) dans le même environnementJupyterà partir d"un simple navigateur. C"est pour cette raison que tous les tutoriels sont exécutables sous la forme d"un calepin, notamment pour lesPhilippe BesseINSA de Toulouse - Mathématiques Appliquées3

4De la Statistique à la Science des (g rosses)Données

Tutoriels d"initiation à R.

Tutorielsd"initiation à Python .

À exécuter et approfondir parallèlement à la maîtrise des principales méthodes.

3 Méthodes de la Science des Données

3.1 Méthodes traitées

L"historique précédent illustre schématiquement une progression pédago- gique car il est difficile d"analyser de grands ensembles de données sans maî- triser les outils de base développés pour des données plus modestes à condition de bien identifier et faire coïncider les objectifs d"une étude : exploratoire, ex- plicatif ou prédictif, avec ceux des méthodes mis en oeuvre. C"est aussi une progression méthodologique, des outils les plus simples aux plus sophistiqués, pour aborder un nouvel ensemble de données. Cette présentation propose donc de découper schématiquement la progres- sion de la formation d"undata scientist, du L3 au M2, en quatre étapes ou saisonsregroupant chacune un ensemble de scénarios ou épisodes couplant présentation théoriques et tutoriels pratiques des différentes méthodes et donc compétences à acquérir. Saison 1(L3)Statistique élémentaire , descriptivevs.inférentielle. Saison 2(M1)Statistique Exploratoire multidimensionnelle et apprentis- sage non supervisé. Saison 3Apprentissage Statistique / Machine supervisé. Saison 4(M2)T echnologiespour la Science des (grosses) Données . N.B.Cette formation s"appuie sur des compétences parallèlement acquises en Statistique mathématique, calcul des Probabilités, Optimisation, Analyse utilisées, de leurs limites, et en Informatique pour leur mise en exploitation.

3.2 Méthodes auxquelles vous avez échappé

Certains points n"ont pas été intégrés à ce déroulement notamment en lien avec leVdevariétéou celui devélocité. Il faut se rendre à l"évidence qu"il

n"est pas possible de former à bac+5 un mouton à 7 pattes supposé maîtrisertoute la "science des données". Il a fallu faire des choix laissant de côté certains

points :

Méthodesd"apprentissagemachinemaispasd"apprentissagestatistiquecomme celles issues du domaine de la logique formelle. La recherchede règles d"associations (problème du panier de la ménagère) en estune. Elle consiste à identifier les co-occurences les plus fréquentes ousignificatives par un ensemble de règles logiques associant variables

et valeurs de celles-ci. Elle n"est pas adaptée à des volumétries impor- tantes.

Traitementdedonnéesstructurées(variété):graphes,trajectoires,images,signaux. Ces dernières nécessitent la projection des données sur desbases fonctionnelles adaptées (Fourier, ondelettes, splines) ou l"utilisa-tion de distances (trajectoires GPS, graphes) ou noyaux spécifiques.

Traitement de flux de données (vélocité). L"apprentissage se fait enligne, voire en temps réel, et sans stockage par des algorithmes d"op-timisation stochastique pour produire des décisions séquentielles, desrecommandations de produits par des algorithmes de bandit.Philippe BesseINSA de Toulouse - Mathématiques Appliquées4

1Apprentissage Machine / Statistique

Apprentissage Machine / Statistique

Résumé

le volume et la diversité des données explosent, les technologies se succèdent, les modèles et algorithmes se complexifient. L"estima- tion devient un apprentissage, la prévision remplace l"explication. Le parcours pour devenirdata scientistest structuré en quatre parties :

Retourà l"introduction générale

Saison 1(L3)Statistiqueélémentaire,descriptivevs.inférentielle. Saison 2(M1)StatistiqueExploratoiremultidimensionnelleetap- prentissage non supervisé. Saison 3Apprentissage Statistique / Machinesupervisé. Saison 4(M2)Technologies pour la Science des (grosses) Don- nées plus des réflexions sur :Statistique et Déontologie scientifique.

1 Introduction

1.1 Objectifs de l"apprentissage

Questions?

Identifier les facteurs aggravants de certains types de cancer en fonction de variables cliniques et démographiques, rechercher des gènes potentiellement impliqués dans une maladie à partir de données de séquençage ou, plus géné- ralement, des bio-marqueurs pour un diagnostic précoce, identifier des chiffres manuscrits de codes issus d"images digitalisées, prévoir un taux de pollution atmosphérique en fonction de conditions météorologiques (cf. figure1), établir des scores d"appétence ou d"attrition en gestion de la relation client (GRC), construire des méta-modèles ou modèles de substitution à un code numérique

trop complexe pour analyser la sensibilité aux paramètres, détecter ou mieuxFIGURE1 -Ozone: Préliminaire à la prévision par adaptation statistique

d"une prévision déterministe. Premier plan de l"analyse en composantes prin- cipales (47% de variance expliquée). En rouge, les jours à prévoir de dépas- sement du seuil critique. prévoir les défaillances d"un procédé... sont autant d"exemples où l"objectif est de minimiser uneerreur de prévisionourisque. C"est encore la recherche d"unmodèleplus généralement d"uneméthode optimaleau sens d"un critère à définir précisément. Parallèlement, les méthodes et algorithmes issus de l"Intelligence Artifi- cielle ( e.g. réseaux de neurones ) se focalisaient sur le même objectif pour deve- nirl" statistique . La notion de d"apprentissage statistique ( statistical learning ) a été introduite par Vapnik (1998)[ ] et popularisée par Hastie et al.(2001)[ 5 Les choix de méthodes, de modèles, sont complexes à opérer et se dé- clinent en sous-objectifs qui restreignent où précisent les classes de modèles à considérer. L"objectif est-il seulementprédictif? Sous-entendu, un modèle boîte noiresuffit-il à répondre aux besoins sans interprétation détaillée? En revanche, une compréhension du modèle, donc de l"impact des variables, at- tributs ou facteurs, est-elle recherchée voire indispensable? Ou encore, plus

précisément, est-ce la détermination d"un petit sous-ensemble de ces variablesPhilippe BesseINSA de Toulouse - Mathématiques Appliquées5

2Apprentissage Machine / Statistique

e.g.des biomarqueurs) qui est recherchée pour rendre opérationnelle une pré- vision suffisamment précise et peu coûteuse? Historiquement, la Statistique s"est beaucoup développée autour de ce type de problèmes et a proposé desmodèlesincorporant d"une part desvariables explicatives ou prédictiveset, d"autre part, une composante aléatoire oubruit.

Il s"agit alors d"

estimerlesparamètresdu modèle à partir des observations en contrôlant au mieux les propriétés et donc le comportement de de la partie aléatoire. Dans la même situation, la communauté informatique parle plutôt d" apprentissagevisant le même objectif; apprentissage machine (oumachine learning ), reconnaissance de forme (pattern recognition) en sont les principaux mots-clés.

Objectif

L"objectif général est donc un objectif demodélisationqui peut se préciser en sous-objectifs à définir clairement préalablement à une étude car ceux-ci conditionnent en grande part les méthodes qui pourront être mises en oeuvre :

Modéliser pour :

explorerou vérifier, représenter, décrire, les variables, leurs liaisons et positionner les observations de l"échantillon, expliquerou tester l"influence d"une variable ou facteur dans un modèle supposé connu a priori, prévoir & sélectionnerun meilleur ensemble de prédicteurs comme par exemple dans la recherche de bio-marqueurs, prévoirpar une éventuelle meilleure "boîte noire" sans besoin d"interpré- tation explicite. Rien n"empêche de construire et comparer tous types de modèles, qu"ils soient interprétatifs ou non, avec sélection de variables ou non; les approches sont complémentaires. Compréhension préalables des données et connaissance des modèles, performances des prévisions, majoration ou contrôle des erreurs, efficacité algorithmique, sont autant de considérations à prendre en compte. nés sont nécessaires pour atteindre le but visé. Des paramètres importants du problème sont les dimensions :nnombre

d"observations ou taille de l"échantillon etpnombre de variables observées surcet échantillon. Lorsque les méthodes statistiques traditionnelles se trouventmises en défaut pour de grandes valeurs dep, éventuellement plus grande que

n , le sous-ensemble de l"quotesdbs_dbs42.pdfusesText_42