[PDF] Classification non supervisée 12 Les objectifs



Previous PDF Next PDF







201 Les écoles - Educationgouvfr

30 CHAPITRE 2 LES ÉTABLISSEMENTS RERS - 2019 2 02 Les classes du premier degré Dans le premier degré public, le nombre de classes se stabilise à la rentrée 2018 : 251 000, soit -0,1 par



CALCUL DU NOMBRE DE CLASSES DES CORPS DE NOMBRES

CALCUL DU NOMBRE DE CLASSES 459 (b) 0 < K N (A) < N2Ne~AV\ A>$ Preuυe Nous ne prouvons que ces majorations, et ce par recurrence sur N En effet, PO (x) = / Jo t En faisant le changement de



2 Les étabLissements 2 - Education

Dans le premier degré, le nombre de classes a connu une légère diminution entre la rentrée 1980 et la rentrée 1999, à un rythme proche de 0,5 par an, en moyenne, à partir de 1990 [1] Depuis, le nombre de classes est orienté à la hausse À la rentrée 2010, en France métropolitaine et dans les DOM, on compte 282 400 classes, soit une



Détermination du nombre optimal de classes présentant un fort

le nombre de classes k fixé par l’utilisateur Pour des classes bien séparées, les algorithmes de classification retrouvent généralement le même nombre de clusters Le problème se pose dans le cas de chevauchement de classes : rares sont les algorithmes qui arrivent à détecter le



Classification non supervisée 12 Les objectifs

Méthodes de classification non supervisée (ou clustering) No-tions de distance, classification ascendante hiérarchique et choix de distances entre classes, construction du dendrogramme, choix du nombre de classes Classification par ré-allocation dynamique (k-means, partitionning around medoïds), méthode mixte pour les grands tableaux



ACTIVITÉS DU GUIDE PÉDAGOGIQUE

l’étendue par un nombre quelconque Le quotient obtenu donne le nombre de classes Poser aux élèves la question suivante : « Par quel nombre doit-on diviser 118 pour obtenir de 5 à 10 classes? » Voici une réponse possible : Si l’on divise 118 par 10, on obtient 11 classes dont les intervalles sont de 10 C’est trop de classes



Les effectifs du premier degré à la rentrée 2017

Le dédoublement des classes de CP en éducation prioritaire renforcée a été appliqué dans les 57 écoles concernées de l’académie, amenant le nombre moyen d’élèves de CP par classes à 12 dans ces établissements Le nombre global d’enfants par classe a diminué, même s’il reste élevé dans les écoles privées sous contrat



EFACAP - HAÏTI

- Nom de l’école et du directeur – DDE, EFACAP et BDS de rattachement - Date de rédaction du projet – signature et cachet de l’école en précisant le nombre de classes, nombre de salles pouvant les accueillir, effectif des élèves inscrits et présents, année de construction de l’école et des réhabilitations ayant déjà



CAH et K-MEANS sous R - Laboratoire ERIC - Unité de

K-MEANS, à la différence de la CAH, ne fournit pas d’outil d’aide à la détection du nombre de classes Nous devons les programmer sous R ou utiliser des procédures proposées par des packages dédiés Le schéma est souvent le même : on fait varier le nombre de groupes et on

[PDF] qui a construit arles

[PDF] catégorie d'établissement scolaire

[PDF] comment se nommait la province romaine d'arles

[PDF] nombre mystère trouver le nombre auquel je pense

[PDF] nombre mystère 3eme

[PDF] marseille antique

[PDF] devinette numération ce2

[PDF] nombre mystérieux ce1 ce2

[PDF] rome du mythe ? l'histoire 6e

[PDF] la fondation de rome 6ème exercice

[PDF] algorithme diviseurs d'un entier ti

[PDF] les nombres entiers exercices

[PDF] les nombres positifs et négatifs

[PDF] fondation de rome selon l'archéologie

[PDF] écriture décimale d une fraction

1Classification non super visée

Classification non supervisée

Résumé

Méthodes de classification non supervisée (ouclustering). No- tions de distance, classification ascendante hiérarchique et choix de distances entre classes, construction du dendrogramme, choix du nombre de classes Classification par ré-allocation dynamique (k-means,partitionning around medoïds), méthode mixte pour les grands tableaux.

Travaux pratiques

avec SAS et R pour la r echerchede classes et leurs représentations.

Retour au

plan du cour s

1 Introduction

1.1 Les données

Comme dans le cas du thème précédent (MDS), les données peuvent se présenter sous différentes formes; elles concernentnindividus supposés af- fectés, pour simplifier, du même poids : nn, entre les individus pris deux à deux; les observations depvariables quantitatives sur cesnindividus; les observations, toujours sur cesnindividus, de variables qualitatives ou d"un mélange de variables quantitatives et qualitatives. D"une façon ou d"une autre, il s"agit, dans chaque cas, de se ramener au ta- bleau des distances deux à deux entre les individus (c"est-à-dire au premier cas). Le choix d"une matrice de produit scalaire permet de prendre en compte simplement un ensemble de variables quantitatives tandis que le troisième cas nécessite plus de développements.1.2 Les objectifs L"objectif d"une méthode de classification déborde le cadre strictement ex- ploratoire. C"est la recherche d"unetypologie, ousegmentation, c"est-à-dire d"une partition, ou répartition des individus enclasseshomogènes, ou caté- gories. Ceci est fait en optimisant uncritèrevisant à regrouper les individus dans des classes, chacune le plus homogène possible et, entre elles, les plus distinctes possible. Cet objectif est à distinguer des procédures de discrimina- tion, ou encore de classement (en anglaisclassification) pour lesquelles une typologie esta prioriconnue, au moins pour un échantillon d"apprentissage. Nous sommes dans une situation d"apprentissagenon-supervisé, ou en anglais declustering1. Il existe de très nombreuses méthodes de classification non supervisées, seule un sélection est décrite ci-dessous. Cette sélection est opérée en visant des méthodes fréquemment utilisées et appartenant à des types d"algorithmes différents donc complémentaires.

1.3 Les méthodes

Un calcul de combinatoire montre que le nombre de partitions possibles d"un ensemble denéléments croît exponentiellement avecn; le nombre de partitions denéléments enkclasses est le nombre de Stirling, le nombre to- tal de partitions est celui de Bell. Pourn= 20il est de l"ordre de1013. Il n"est donc pas question de chercher à optimiser le critère sur toutes les parti- tions possibles. Les méthodes se limitent à l"exécution d"unalgorithme itératif convergeant vers une bonne partition et correspondant en général à un opti- mum local. Plusieurs choix sont laissés à l"initiative de l"utilisateur : une mesure d"éloignement (dissemblance, dissimilarité ou distance) entre individus; le critère d"homogénéité des classes à optimiser : il est, dans le cas de variables quantitatives, généralement défini à partir de la trace d"une matrice de variances-covariances; soit les variances et covariances in- terclasses (la trace correspond alors à l"inertie de la partition), soit les

variances et covariances intraclasse;1. Faire attention aux faux amis français / anglais : discrimination /classification(supervisée)

et classification /clustering(non-supervisée)

2Classification non super visée

la méthode : classification ascendante hiérarchique, ré-allocation dyna- mique et DBSCAN sont les plus utilisées, seules ou combinées; le nombre de classes : c"est un point délicat. Enfin, différents outils recherchent une interprétation, ou des caractérisations, des classes obtenues.

Classification ascendante hiérarchique, ou CAH

Il s"agit de regrouper itérativement les individus, en commençant par le bas (les deux plus proches) et en construisant progressivement un arbre, ou dendrogramme, regroupant finalement tous les individus en une seule classe, à la racine (cf. figure 2 qui reprend les données élémentaires de la vignette sur le MDS ). Ceci suppose de savoir calculer, à chaque étape ou regroupement, la distance entre un individu et un groupe ainsi que celle entre deux groupes. Ceci nécessite donc, pour l"utilisateur de cette méthode, de faire un choix supplé- mentaire : comment définir la distance entre deux groupes connaissant celles de tous les couples d"individus entre ces deux groupes. Différents choix, ap- peléssauten français etlinkageen anglais, sont détaillés plus loin. Le nombre de classes est déterminéa posteriori, à la vue du dendrogramme ou d"un gra- phique représentant la décroissance de la hauteur de chaque saut, ou écart de distance, opéré à chaque regroupement.

Classification par ré-allocation dynamique

Dans ce cas, le nombre de classes,k, est fixéa priori. Ayant initialisék centres de classes par tirage aléatoire (ou autre procédure), tous les individus sont affectés à la classe dont le centre est le plus proche au sens de la distance choisie (en principe, euclidienne pour cette méthode). Dans une deuxième étape, l"algorithme calcule des barycentres de ces classes qui deviennent les nouveaux centres. Le procédé (affectation de chaque individu à un centre, dé- termination des centres) est itéré jusqu"à convergence vers un minimum (local) ou un nombre d"itérations maximum fixé.

DBSCAN

Density-based spatial clustering of applications with noise(DBSCAN) est un algorithme plus récent (Ester et al. 1996)[ 2 ] basé sur une estimation lo- cal de la densité comme son acronyme le désigne. Basé sur deux paramètres

(nombre minimum de points et rayon d"une boule, il regroupe itérativement lespoints par paquet sur la base de leur voisinage (nombre minimum d"individus)

à l"intérieur d"une boule de rayon.

2 Mesures d"éloignement

Notons

=fi= 1;:::;ngl"ensemble des individus. Cette section se propose de définir sur différentes mesures d"éloignement entre deux individus. Les hypothèses et propriétés étant de plus en plus fortes.

2.1 Indice de ressemblance, ou similarité

C"est une mesure de proximité définie de

dansR+et vérifiant : s(i;j) =s(j;i);8(i;j)2 :symétrie; s(i;i) =S >0;8i2 :ressemblance d"un individu avec lui-même; s(i;j)S;8(i;j)2 :la ressemblance est majorée parS. Un indice de ressemblance normésest facilement défini à partir despar : s (i;j) =1S s(i;j);8(i;j)2 s est une application de dans[0;1].

2.2 Indice de dissemblance, ou dissimilarité

Une dissimilarité est une applicationdde

dansR+vérifiant :

8(i;j)2

d(i;j) =d(j;i);:symétrie; d(i;j) = 0,i=j: Les notions de similarité et dissimilarité se correspondent de façon élémen- taire. Sisest un indice de ressemblance, alors d(i;j) =Ss(i;j);8(i;j)2 est un indice de dissemblance. De façon réciproque, sidest un indice de dis- semblance avecD= sup(i;j)2 d(i;j), alorss(i;j) =Dd(i;j)est

3Classification non super visée

un indice de ressemblance. Commes, un indice de dissemblance normé est défini par : d (i;j) =1D d(i;j);8(i;j)2 avecd= 1sets= 1d. Du fait de cette correspondance immédiate, seule la notion de dissemblance, ou dissimilarité, normée est considérée par la suite.

2.3 Distance

Une distance sur

est, par définition, une dissimilarité vérifiant en plus la propriété d"inégalité triangulaire. Autrement dit, une distancedest une appli- cation de dansR+vérifiant : d(i;j) =d(j;i);8(i;j)2 d(i;i) = 0()i=j; d(i;j)d(i;k) +d(j;k);8(i;j;k)2 3: Si est fini, la distance peut être normée.

2.4 Distance euclidienne

Dans le cas où

est un espace vectoriel muni d"un produit scalaire, donc d"une norme, la distance définie à partir de cette norme est appelée distance euclidienne : d(i;j) =< ij;ij >1=2=kijk: La condition pour qu"une matrice donnée de distances entre éléments d"un espace vectoriel soit issue d"une distance euclidienne est explicitée dans la vi- gnette sur le positionnement multidimensionnel (MDS). T outedistance n"est pas nécessairement euclidienne; voir, par exemple, celle construite sur la va- leur absolue.

2.5 Utilisation pratique

Concrètement, il peut arriver que les données à traiter soient directement sous la forme d"une matrice d"un indice de ressemblance ou de dissemblance. Il est alors facile de la transformer en une matrice de dissemblances normées avant d"aborder une classification.Nous précisons ci-dessous les autres cas.

Données quantitatives

Lorsque lespvariables sont toutes quantitatives, il est nécessaire de définir une matriceMde produit scalaire sur l"espaceRP. Le choixM=Ip, matrice identité, est un choix élémentaire et courant; mais il est vivement conseillé de réduireles variables de variances hétérogènes, comme en ACP, ce qui revient à considérer, comme matrice de produit scalaire, la matrice diagonale composée des inverses des écarts-types :

M= 1=diag(1

11 p): peut aussi être utilisée pour atténuer la structure de corrélation.

Données qualitatives

Dans le cas très particulier où toutes les variables sont binaires (présence, absence de caractéristiques), de nombreux indices de ressemblances ont été proposés dans la littérature. Ils sont basés sur les quantités suivantes définis pour deux individusietjdistincts : aij=nombre de caractères communs àietjsur lespconsidérés, bij=nombre de caractères possédés parimais pas parj, cij=nombre de caractères possédés parjmais pas pari, dij=nombre de caractères que ne possèdent niinij. bien sûr,aij+bij+cij+dij=p. Les indices de ressemblance les plus courants sont :

Concordance :aij+dijp

Jaccard :aija

ij+bij+cij, Dice :2aij2aij+bij+cijIl est ensuite facile de construire un indice de dissemblance. Dans le cas plus général depvariables qualitatives, la distance la plus uti- lisée est celle, euclidienne, dite du2entre profils-lignes du tableau disjonctif complet (cf. AFCM ). La distance entre deux individusietkest alors définie

4Classification non super visée

par : dquotesdbs_dbs8.pdfusesText_14