[PDF] Authentification faiblement contrainte par dynamique de

Laboratoire GREYC ENSICAEN - Université de Caen Basse Normandie - CNRS d'authentification par dynamique de frappe au clavier ba- sée sur l'utilisation

2 avr 2017 · L'application de saisie, soumise à authentification par clé OTP sur le portail ArenA, -> https://si1d ac-caen fr/arena (également accessible depuis Mon Activité 10 : Imagine que tu t'inscris sur un site internet pour trouver un

[PDF] Authentification faiblement contrainte par dynamique de - CNRS

Laboratoire GREYC ENSICAEN - Université de Caen Basse Normandie - CNRS d'authentification par dynamique de frappe au clavier ba- sée sur l'utilisation

[PDF] Groupe de Recherche en Informatique, Image - Accueil - GREYC

3 Maison de la Recherche en Sciences Humaines de l'Université de Caen Le logiciel GREYC Keystroke permettra la création de benchmarks pour l' authentification par dynamique de frappe de composants pourra être imaginé et testé

Th ese de Doctorat Universit e de Caen - DI ENS

chi rement { et deux seulement, quelles que soient les complications imagin ees au 61] Lamport L ((Password Authentication with Insecure Communication))

[PDF] imagin lyon

[PDF] imagin nice

[PDF] imagin siec education fr imagin intervenant

[PDF] imagin versailles

[PDF] imagin2 rennes

[PDF] imap ac bordeaux fr

[PDF] imap sfr iphone

[PDF] imgin rennes

[PDF] imitation différée exemple

[PDF] imitation psychologie du développement

[PDF] imitation psychologie sociale

[PDF] imiter une personne psychologie

[PDF] imm 5256

[PDF] imm 5257 (pdf 358 ko)

[PDF] imm 5257 2016

Authentification faiblement contrainte

par dynamique de frappe au clavier Romain Giot Mohamad El-Abed Christophe Rosenberger

Laboratoire GREYC

ENSICAEN - Université de Caen Basse Normandie - CNRS

6 Boulevard Maréchal Juin

14000 Caen Cedex

Résumé

Nous proposons dans cette communication, une méthode d"authentification par dynamique de frappe au clavier ba- sée sur l"utilisation d"une passphrase commune à tous les utilisateurs. Les mécanismes principaux de ce système sont : l"utilisation de peu de données pour créer le modèle prentissage incrémental et un séparateur à vaste marge pour l"apprentissage. Les résultats expérimentaux sur une base contenant 100 individus montrent l"apport de ce nou- veau système.

Mots Clef

Biométrie, dynamique de frappe au clavier, séparateur à vaste marge, apprentissage incrémental.

Abstract

In this communication, we propose an authentification method based on the use of a passphrase associated to keystroke dynamics. The main mechanisms of the system are the use of few data to create users" model (5 cap- mentals results on a benchmark containing 100 individuals show the benefit of this new system.

Keywords

Biometrics, keystroke dynamics, SVM, incremental learn- ing.

1 Introduction

L"accès par des entités à des ressources contrôlées est gé- néralement géré par des systèmes d"authentification répon-

dant aux deux questions suivantes : qui est l"utilisateur? et,l"utilisateur est-il bien celui qu"il dit être? Dans cet article,

nous nous intéressons au second cas, où nous voulons vé- rifier l"identité de la personne à l"aide de sa façon de taper au clavier. Le but de la dynamique de frappe au clavier (ddf) est de sécuriser l"utilisation du couple identifiant/mot de passe qui souffre de différentes lacunes [20] : les mots de passe peuvent être échangés entre les utilisateurs, volés ou devi- nés. La ddf ajoute une dimension supplémentaire : ce qui qualifie l"utilisateur ou son comportement (sa façon de ta- per) dans le but de renforcer la sécurité l"authentification par mot de passe. Le fonctionnement d"un système biométrique nécessite deux processus principaux : (i)l"enrôlementqui consiste à capturer les données biométriques de l"utilisateur afin de créer son modèle et d"ajouter ce dernier au système, (ii) et lavérificationqui consiste à effectuer une capture et la comparer au modèle afin de prendre la décision d"accepter (en fonction d"un seuil de décision), ou rejeter, l"utilisa- teur présumé. La capture des données dans le cas de la ddf consiste à enregistrer les instants où les touches sont pres- sées et relâchées afin de calculer leurs temps de pression et

différents temps de latences (Figure 1).FIG. 1 - Capture de la donnée biométrique. La touche O est

pressée avant le relâchement de C (l"utilisateur tape vite) Différentes métriques permettent de mesurer les perfor- mances d"un système biométrique, la liste suivante pré-

Session 4B391

sente celles utilisées dans ce papier : le FARFalse Acceptance Rate, ouTaux de Fausse Accep- tation, représente le ratio de captures d"imposteurs ac- ceptées par le système par rapport au nombre total de captures d"imposteur; le FRRFalse Reject Rate, ouTaux de Faux Rejetrepré- sente, le ratio de captures d"utilisateurs légitimes re- jetées par le système par rapport au nombre total de captures d"utilisateur légitime; le EERError Equal Rate, ouTaux d"Erreur Égale, repré- sente le taux d"erreur, lorsque le seul du système est configuré de telle façon à obtenirFAR=FRR. Dans cet article, nous proposons une nouvelle méthode d"authentification par passphrase (l"ensemble des utilisa- teurs possèdent le même mot de passe, il n"y a donc pas de secret) nécessitant peu de données d"enrôlement (5), et, la comparons à différentes méthodes de l"état de l"art se- lon différents scénarios. Les sections suivantes présentent un état de l"art de la ddf, notre méthode, le protocole et les résultats expérimentaux. Nous concluons et donnons les différentes perspectives de cette étude.

2 Travaux antérieurs

2.1 Historique

Les premiers travaux sur la ddf sont présentés dans un rap- port de la Rand Corporation [6] et datent de 1980. Cette étude a permis de montrer que l"on pouvait distinguer les utilisateurs à leur façon de saisir de longs textes. Par la suite, les chercheurs ont essayé d"améliorer les perfor- mances de reconnaissance tout en diminuant la quantité de texte à saisir afin de créer le modèle de l"utilisateur. En 1986, un brevet américain décrit un schéma dans lequel les utilisateurs saisissent leur nom afin de s"authentifier [7]. Il suppose que le mot de passe sera forcément facile à re- tenir et que la saisie sera plus constante du fait de saisir quelque chose d"habituel. Une idée proposée dans le bre- vet est d"utiliser le vecteur moyen des temps de digraphes comme modèle, une distance de Mahalanobis étant ensuite effectuée entre le modèle de l"utilisateur présumé et la cap- ture. Si cette distance est supérieur à 100, l"utilisateur est rejeté, tandis que si elle est inférieure à 50, l"utilisateur est accepté. Dans le cas où elle est entre 50 et 100, il est né- cessaire qu"il fasse une nouvelle saisie. Le brevet décrit un autre système où les utilisateurs saisissent 10 fois 1000 des mots les plus courants afin de leur générer un profil, tandis que l"authentification se fait en saisissant une phrase géné- rée aléatoirement. En 1997, Monrose et Rubin, ont travaillé sur l"analyse de textes libres [14]. Ils recommandent de séparer les utilisa-

teurs en différents groupes (en fonction de leur vitesse defrappe) afin d"accélérer le temps de reconnaissance. Diffé-

rentes études sur des méthodes statistiques et des réseaux de neurones [15] ont également été effectuées. Les auteurs ont également vérifié les performances d"utilisation des du- rées de frappe comme mesure, ce qu"a confirmé l"étude. Les meilleures performances ont été obtenues en utilisant à la fois les temps de latence et la durée de pression. Ils ont obtenu un taux d"erreur de 0% à l"aide d"un réseau de neu- rones utilisant 112 captures pour l"enrôlement et un FAR de 1,9% et FRR de 0,7% en utilisant une mesure de dis- tance. Améliorer les performances des systèmes semble de plus en plus difficile, cependant il est toujours possible d"amé- liorer la consistance (diminution de la variabilité intra- classe) de la frappe de l"utilisateur afin de diminuer les erreurs. Hwanget al.soutiennent le fait que la qualité des mesures utilisées pour créer le vecteur de référence est plus importante que leur quantité [13]. Ainsi, dans leur étude, les auteurs ont essayé d"augmenter la consistance des mo- tifs en utilisant des pauses (dans le rythme de la frappe) à l"aide de signaux afin d"améliorer les performances d"au- thentification sans modifier les algorithmes (augmentation de la séparabilité entre les utilisateurs). Dans [9], les auteurs présentent trois méthodes différentes (basées sur des adaptations et améliorations de méthodes existantes) utilisées en fusion afin d"améliorer les perfor- mances. Les méthodes sont de type statistique, basées sur le rythme de frappe, ou la mesure du désordre. Le EER ob- tenu avoisine les 5%, mais il a été calculé avec une base relativement petite. Les auteurs de [19] ont quant à eux testé la ddf en utilisant unSéparateur à Vaste Marge. Ils ont testé des SVM à 1 et 2 classes. Dans le cas d"un SVM à

2 classes les données des imposteurs ont été générées à par-

tir des données de l"utilisateur. Seulement 10 utilisateurs et

5 imposteurs ont pris part à l"étude. Le SVM à une classe

a de meilleures performances et un temps de calcul plus faible que l"utilisation de réseaux de neurones (pour la gé- nération du modèle). D"une manière générale, la création du modèle nécessite une quantité conséquente de captures, ce qui est difficile- ment applicable en milieu opérationnel.

2.2 Discussion

Nous avons donc vu qu"il existe différentes études sur le sujet. Cependant, contrairement aux autres modalités bio- métriques (comme l"iris, la signature ou les empreintes di- gitales), elles ont toutes été faites avec des bases de don- nées différentes : il n"existe pas de base conséquente pu- blique sur la ddf. L"utilisation de bases de données différentes empêche la réelle comparaison des méthodes de l"état de l"art car le protocole de création de la base diffère en terme de temps

Session 4B392

de création de la base, quantité d"utilisateurs, quantité de captures par utilisateurs, etc ... Le tableau 1 présente, pour quelques études, les différences entre les bases de données et leurs configurations.

3 Méthode développée

Le but de la méthode proposée est de limiter le nombre de captures nécessaires pour l"enrôlement (pour des raisons évidentes d"utilisabilité) tout en ayant de bonnes perfor- mances. La méthode que nous proposons est nouvelle, dans le sens où elle nécessite peu de données de la part de l"utilisa- teur pour l"enrôlement et, que les données sont discrétisées avant d"être utilisées pour l"apprentissage d"un séparateur

à vaste marge à deux classes.

Les parties suivantes détaillent le fonctionnement du sys-

tème, tandis que la Figure 2 en présente un résumé.FIG. 2 - Fonctionnement du mécanisme développé.3.1 Capture

La capture de la donnée biométrique se déroule à la fois lors de l"enrôlement et de la vérification. La capture est faite à partir de la saisie de la passphrase par l"utilisa- teur. Un vecteur de temps est calculé à partir des données brutes : il est constitué de la concaténation de quatre autres vecteurs de temps (celui codant la durée de pression de chaque touches (T3T1), ceux des trois types de temps de latence (T2T1,T4T2etT3T2), voir Figure 1). Ainsi, pour une passphrase dencaractères, le vecteur ob- tenu a une dimension de3(n1) +n. Les données sont ensuite discrétisées dans un alphabet de cinq caractères : chaque dimension du vecteur est partition- née en 5 intervalles de taille égale et la nouvelle valeur est le numéro de la partition associée au temps initial.

3.2 Enrôlement

Les utilisateurs doivent saisir cinq fois une passphrase dé- finie par l"administrateur du système, ainsi, le modèle d"un utilisateur est créé à l"aide de 5 de ses captures et de5m captures d"imposteurs pourmimposteurs. Ensuite, un sé- parateur à vaste marge est utilisé pour l"apprentissage. Le principe de base des séparateurs à vastes marges [21] est de classifier différentes classes à l"aide d"une marge maximale associée à des vecteurs supports et d"une fonc- tion noyau. La fonction noyau permet d"opérer un change- ment de repère dans un espace de plus grande dimension afin de se retrouver à un problème de séparation linéaire, lorsque les données ne sont pas linéairement séparables. La frontière de séparation est celle qui maximise la marge (distance entre la frontière de séparation et les échantillons les plus proches). La Figure 3 présente le principe de la marge maximale.FIG. 3 - Présentation de la séparation linéaire avec la marge maximum et les vecteurs supports associés.

Session 4B393

TAB. 1 - Extrait des différences entre les protocoles des méthodes de l"état de l"art. Les informations présentes sont les

auteurs de l"article, la durée d"acquisition, le nombre d"individus concernés, si il s"agit d"une acquisition contrôlée, si le seuil

utilisé est global au système ainsi que les FAR et FRR du système. "??" indique que l"article ne présente pas l"information.PapierDurée Individus Enrôlement Acquisition Seuil globalFAR FRR

Obaidat et Sadoun [15]8 semaines 15 112 non non0% 0%

Blehaet al.[3]8 semaines 36 30 oui yes2.8% 8.1%

Rodriguezet al.[18]4 sessions 20 30??no3.6% 3.6%

Hocquetet al.[11]?? 38 ???? non1.7% 2.1%

Revettet al.[17]14 jours 30 10 ?? non0.15% 0.2%

Hosseinzadeh et Krishnan [12]?? 41 30 non non4.3% 4.8% Dans notre cas, nous avons utilisé le noyau linéaire (K(xi;xj) =xiTxj) qui a donné de meilleurs résul- tats que le noyau gaussien. Nous utilisons un SVM à deux classes : la classe1est constituée desndonnées d"appren- tissage de l"utilisateur, tandis que la classe1est consti- tuée desndonnées d"apprentissage desmimposteurs. Les calculs ont été faits grâce à la bibliothèque libsvm [4].

3.3 Vérification

Le mécanisme de vérification consiste à réaliser une procé- dure de reconnaissance de la donnée biométrique capturée à l"aide de l"algorithme du SVM. Les données sont préala- blement discrétisées à l"aide de l"alphabet présenté précé- demment. Un score est calculé à l"aide des informations retour- nées par l"algorithme de reconnaissance SVM. Nous avons choisi de calculer le distance de la façon suivante :

SV M=prbprd(1)

avecprbétant laprobabilité durésultat (entre0et1), etprd la classe prédite (1ou1). De cette façon, les distances négatives correspondent à l"utilisateur et les positives aux imposteurs. Plus la valeur absolue de la distance est impor- prendre un seuil de décision différent de0afin de prendre en compte les captures de l"utilisateur mal classées. Le score est ensuite comparé à un seuil, qui peut être glo- bal au système, ou individuel à l"utilisateur, afin de prendre la décision d"accepter ou rejeter l"utilisateur. Si la vérifica- tion s"avère être fructueuse, un mécanisme de mise à jour du modèle peut être mis en place après l"acceptation de l"utilisateur.

3.4 Mise à jour du modèle biométrique

La dynamique de frappe au clavier fait partie de la famille des modalités biométriques comportementales, c"est pour- quoi, utiliser un mécanisme qui prend en compte l"évolu-

peut être intéressant [1, 16].Quatre différents moyens d"évolution ont été définis :

- aucune adaptation (nous gardons les cinq premiers vec- teurs comme vecteurs d"enrôlement). Cette approche est notée "Classique"; - une méthode remplaçant, après chaque vérification, la plus ancienne capture par la capture de vérification; de cette façon il y a toujours cinq vecteurs d"enrôlement.

Cette approche est notée "Adaptative";

- une méthode ajoutant, après chaque vérification, la cap- ture de test; le nombre de captures d"enrôlement aug- mente donc progressivement. Cette approche est nom- mée "Progressive"; - une méthode nommée "Intelligente" basée sur les deux précédentes qui ajoute le vecteur tant qu"il y a moins de quinze vecteurs d"enrôlement et qui remplace le plus ancien sinon. De plus, cet ajout n"est fait que lorsque le vecteur de test (qui appartient toujours à l"utilisateur) n"est pas trop différent (en terme d"écart à la moyenne) des vecteurs du modèle. Cependant, la mise à jour du modèle biométrique apporte une complexité supplémentaire au problème, car il devient possible, en cas d"erreur, d"ajouter au modèle les données d"un imposteur.

4 Validation du système

4.1 Base de données

Étant donné qu"il n"existe pas de base de données publique conséquente sur la ddf, nous avons décidé de créer la notre et de la rendre publique [8]. Nous avons respecté les prin- cipes énoncés dans [5] afin de créer une base de qualité.

133 utilisateurs ont participé à la création de cette base. Ils

ont eu la possibilité de participer à une session de capture une à deux fois par semaine pendant plus de deux mois. Lors d"une session d"acquisition, l"utilisateur devait saisir, par alternance, 6 fois le mot de passe "greyc laboratory" sur deux claviers différents. Une session est ainsi compo- sée de 12 captures. Nous avons choisi ce mot de passe pour

Session 4B394

plusieurs raisons : (i) il s"agit du nom de notre laboratoire et contribue à sa promotion, et (ii) il s"agit d"un mot de passe suffisamment long [3] avec un bon positionnement des touches sur le clavier (ce qui aide pour la discrimina- lité) [16]. Pour cette étude, 100 utilisateurs ont été retenus. Il s"agit des utilisateurs ayant proposé au minimum 60 captures. Les données extraites sont composées des 4 différences de temps possibles : RR, RP, PR et PP (avec R pour relâche- ment et P pour pression). Il y a donc le temps de pression et 3 temps de latence pour chaque couple de touches.

4.2 Méthodes sélectionnées

Nous avons choisi de sélectionner et implémenter les mé- thodes de l"état de l"art qui se rapprochent le plus de nos attentes (nécessitant peu de données pour l"enrôlement). Différentes "familles" de méthodes ont été choisies : sta- tistique, distance et rythme. Les symboles suivants sont utilisés pour représenter : -vcorrespond au vecteur à tester (de taillen); -est le vecteur moyen des vecteurs d"enrôlement; -est l"écart type des vecteurs d"enrôlement. L"ensemble des méthodes retourne une distance : plus le score est petit, plus le vecteur de test est proche du modèle de l"utilisateur. Algorithmes statistiques.Deux méthodes statistiques sont testées. La première ne prend pas en compte l"écart type des différents temps [3] :

STAT1 =(v)t(v)jjvjj:jjjj(2)

tandis que la seconde est basée à la fois sur la moyenne et l"écart type des temps [11] :

STAT2 = 11n

n X i=1ejviij i(3) Calcul de distance.Le calcul de distance est basé sur une distance euclidienne [14] :

DIST= min0

8uenrol;v

uutn X i=1(uivi)21 A (4) Méthode basée sur le rythme de frappe.Cette mé-

thode consiste à discrétiser les temps selon un alphabet decinq caractères, puis de calculer une distance de Manhat-

tan entre le modèle discrétisé et le vecteur de test discré- tisé [11] :

RY THM=1n

n X i=1abs(classe(vi)classe(i))(5) avecclasse(i)une fonction qui retourne la classe dei. Pour calculer cette classe, l"espace est partitionné en cinq partitions de taille identique entre le temps maximum et minimum. La classe correspond au numéro de la partition comprenant le temps.

4.3 Résultats expérimentaux

Le but de cette section est de présenter les résultats expéri- mentaux aux questions suivantes : - L"utilisation d"un clavier différent a-t-il une incidence sur les performances des algorithmes? - Comment évoluent les performances en fonction du nombre de captures pour l"enrôlement? - Est-il nécessaire de prendre en compte l"évolution de la façon de taper au cours du temps? - Est-il nécessaire d"utiliser un seuil différent en fonction des utilisateurs? - Les résultats dépendent ils du nombre d"utilisateurs dans la base de données? Les différentes études ont été faites sur notre algorithme et ceux de l"état de l"art en utilisant 5 captures pour l"enrôle- ment et des données en provenance des deux claviers. Différences entre les deux claviers.Le tableau 2 repré- sente les différents EERs en fonction du clavier d"origine des captures utilisées pour l"apprentissage et le test. Le EER de chaque méthode est calculé en utilisant les

10 premières captures de l"utilisateur pour l"enrôlement et

toutes les autres pour la vérification. Le clavier source des captures peut être différent. Aucun mécanisme d"adapta- tion n"est utilisé. Lorsque la source des captures de test et d"enrôlement est différente, le calcul est fait plusieurs fois en sélectionnant les captures d"enrôlement aléatoirement et en moyennant les résultats. Les colonnes EER11 et EER22 représentent respective- ment le EER lorsque les données appartiennent unique- ment au clavier 1 et 2. La colonne EER12 représente le EER calculé en utilisant le clavier 1 pour l"apprentissage et le clavier 2 pour la vérification (et vice-versa pour EER21). La colonne EERaa correspond à l"utilisation des données en provenance des deux claviers à la fois pour l"enrôlement et la vérification. Les résultats ne sont pas exactement égaux d"une configu-

Session 4B395

TAB. 2 - Taux d"erreur des méthodes en fonction des cla- viers d"origine. "EERnm" signifie que les données d"enrô- lement proviennent du clavier "n" et les données de vérifi- cation du clavier "m", avec "1", "2", "a"représentant res- pectivement les données du clavier 1, 2 ou de n"importe lequel d"entre eux. Le meilleur EER de chaque configura- tion est représenté en gras.Methode EER11 EER22 EER12 EER21 EERaa

STAT1 24,91% 23,96% 24,73% 23,51% 25,50%

STAT2 17,68% 16,55% 17,10% 16,65% 17,58%

DIST 27,01% 26,00% 26,46% 25,07% 27,56%

RYTHM 19,40% 20,09% 19,25% 19,50% 19,78%

SVM10,68% 10,37% 10,30% 11,76% 11,96%ration à l"autre, mais nous ne pouvons pas noter de diffé-

quotesdbs_dbs1.pdfusesText_1

[PDF] [PDF] Authentification faiblement contrainte par dynamique de - CNRS

[PDF] eva anglais cm2 livre maitre 2017 - Copie - Prim 61