[PDF] Introduction à la manipulation de série temporelle avec R



Previous PDF Next PDF







Introduction à l’Étude des Séries Temporelles

Les séries temporelles sont présentes dans de nombreux domaines d’application Parexemple, endémographie, onpeuttracerl’évolutiondelatailled’unepopulation



S´eries temporelles, avec R Florin Avram

S´eries temporelles, avec R Florin Avram Objectif : La r´egression et l’interpolation d´et´erministe sont parmi les m´ethodes les plus importantes en statistique et dans les math´ematiques ap-pliqu´ees Leur but est d’´estimer la valeur d’un ”signal” g(x) en un point xquel-conque, en connaissant des observations Y



Séries temporelles – Modèles ARIMA - Les STAPS, l

Séries temporelles – Modèles ARIMA Didier Delignières Séminaire EA "Sport – Performance – Santé" Mars 2000 Il existe deux catégories de modèles pour rendre compte d'une série temporelle Les premiers considèrent que les données sont une fonction du temps (y = f(t)) Cette catégorie de modèle



Initiation à l’analyse des séries temporelles et à la prévision

Nous présentons l’analyse des séries temporelles qui est employée dans de nombreuses sciences et techniques Nous mettons notamment l’accent sur les méthodes de prévision telles qu’elles sont utilisées, en particulier pour la prévision des ventes dans les entreprises Nous



TD de S eries Temporelles - Université de Nantes

TD de S eries Temporelles F Lavancier, A Philippe Processus ARMA Processus L2 Ex 8 Soit ( n) n un bruit blanc de variance ˙2 Soit (X n) le processus suivant la r epr esentation X n = 1 2 X n 1 1 4 X n 2 + n: 1) Montrer qu’il existe X n stationnaire et que la repr esentation pr ec edente est cano-nique 2) Montrer que les termes d





Séries chronologiques (avec R - unicefr

temporelles: —Avant de charger le fichier dans R, taper l’adresse dans le navigateur pour le visualiser Charger un fichier de données numériques en sautant les k premières lignes (s’il y a du texteaudébut): data=scan(file=”donnee dat”,skip=k) Définirlerépertoirecourant:



Econométrie Appliquée Séries Temporelles

pour les processus DS il existe une propriété de persistance des chocs qui n’existe pas dans les processus TS Unetellehypothèse impliquepar exemplequesi lesséries macroéconomiquessatisfont une représentation de type DS, l’impact des chocs conjoncturels peut avoir un e ffet permanent sur



Maîtrise dÉconométrie Cours de Séries empTorelles

servées à la surface du soleil pour les années 1700 1980 Il y a une donnée par an, soit donc 281 points reliés par des segments C'est une des séries temporelles les plus célèbres On y distingue la superposition de deux phénomènes périodiques (une période d'à peu près 11 ans et une autre d'à peu près 60 ans, cette dernière étant

[PDF] sérigraphie

[PDF] Serment du Jeu de Paume

[PDF] serment du jeu de paume analyse

[PDF] serment du jeu de paume description

[PDF] serment du jeu de paume texte

[PDF] séropositif définition

[PDF] séropositif espérance de vie

[PDF] séropositif symptome

[PDF] séropositif symptomes

[PDF] séropositif wikipedia

[PDF] Séropositives au virus du sida !

[PDF] sérotonine

[PDF] sérotonine rastop

[PDF] serre agricole automatise (projet sti2d)

[PDF] Serrez-vous un peu !

Introduction à la manipulation de série temporelle avec R

MAP-STA2 : Séries chronologiques

Yannig Goude yannig.goude@edf.fr

2022-2023

Contents

Introduction2

Tableaux de données avec R 2

Data Frames . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2

tibbles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5 Importer des données en R à partir d"un fichier plat 6

Fonctions de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6

Le package readr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7 Importer des données de séries temporelles 8

Gestion des dates avec les fonctions de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8

Gestion des dates avec lubridate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

9

Classes ts et msts10

Classes zoo11

Classe xts: eXtensible Time Series . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11 Représentation graphique de séries temporelles 11

plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11

plot.ts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

12

plot.zoo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

13

plot.xts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

14

package dygraphs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

15

Statistiques de base d"une série temporelle 16

Analyse descriptive avec R 17

boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

17

histogrammes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

17

croisement par facteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

18

Exemple 1: données de polution de l"air 20

Exemple 2: données de traffic internet 22

Quelques exemples de sources de données: 24

1

IntroductionCe document présente les notions de R spécifiques à la manipulation et l"analyse de base de séries temporelles.

Une série temporelle ou chronologique (nous utiliserons les deux termes indifféremment) correspond à une

série d"observations réalisées au cours du temps. Ces observations pouvant être régulièrement ou non espacées

dans le temps. Historiquement, elles ont été utilisés en astronomie (on the periodicity of sunspots, 1906),

en météorologie (time-series regression of sea level on weather, 1968), en théorie du signal (Noise in FM

receivers, 1963), en biologie (the autocorrelation curves of schizophrenic brain waves and the power spectrum,

1960) ou encore en économie (time-series analysis of imports, exports and other economic variables, 1971)

Le but de l"analyse de série temporelle est de décrire/analyser des données de ce type, par exemple:

en économie: détecter et caractériser des périodes de crises, des corrélations entre différents indicateurs

économiques.

en traitement du signal: reconnaitre des séquences de mots dans un signal audio, reconnaitre le type de

musique/ les intruments d"un enregistrement audio.

en météorologie: détecter des changements dans une série de mesures (changement climatique), prévoir

des événements extrêmes •dans l"industrie: détecter une anomalie dans une chaîne de production. •dans le commerce: prévoir des ventes de certains produits. •dans le tertiaire: prévoir le nombre d"appels dans un call-center.

Tableaux de données avec R

Data Frames

L"objet permettant de stocker des tableaux de données en R est la data frame. Il s"agit d"une liste de vecteur

de même taille, potentiellement de type (numeric, character) différent.x1<-c(1:5) x2 c "a" "b" "c" "d" "e" x3 c rep TRUE 3 rep FALSE 2 data_test data.frame (x1, x2, x3)

Par défaut le nom des éléments de la liste est celui des vecteurs la constituant. Il est possible de les modifier

via la fonctionnames():names(data_test)<-c("var1","var2" ,"var3" ) data_test ## var1 var2 var3 ## 1 1 a TRUE ## 2 2 b TRUE ## 3 3 c TRUE ## 4 4 d FALSE ## 5 5 e FALSE

Lorsqu"on affiche la data frame, la première ligne de la table, appelée header, contient le nom des colonnes.

Les observations constituent les lignes de la table. Pour connaitre les dimensions de la data frame, utiliserdim(),ncol()ounrow(). Il est souvent pratique de visualiser les premières lignes de la table à l"aide dehead() 2 head(data_test,2 ) ## var1 var2 var3 ## 1 1 a TRUE

## 2 2 b TRUEUne fonction très utile, notamment lorsqu"on manipule des data frame est la fonctionstr, elle permet

d"obtenir le type de chacune des variables de la data frame:str(data_test) ##?data.frame?: 5 obs. of 3 variables: ## $ var1: int 1 2 3 4 5 ## $ var2: chr "a" "b" "c" "d" ... ## $ var3: logi TRUE TRUE TRUE FALSE FALSE La fonctionsummary()permet de calculer des statistiques de base de la data frame:summary(data_test) ## var1 var2 var3 ## Min. :1 Length:5 Mode :logical ## 1st Qu.:2 Class :character FALSE:2 ## Median :3 Mode :character TRUE :3 ## Mean :3 ## 3rd Qu.:4 ## Max. :5 Pour accéder à la colonneide la table la commande estdata_test$varioudata_test[[i]]ou

data_test[,"vari"]. Pour accéder à la cellule de la table correspondant à la ligneiet la colonnej

l"instruction estdata_test[i,j].

Remarquons que le type d"objet obtenu lorsqu"on sélectionne une variable de la data frame dépend de

l"instruction:x<-data_test$var1 str (x) ## int [1:5] 1 2 3 4 5x<-data_test[,1] str (x) ## int [1:5] 1 2 3 4 5x<-data_test[ ,"var1" , drop= TRUE ] str (x) ## int [1:5] 1 2 3 4 5x<-data_test[ ,"var1" , drop= FALSE ] str (x) ##?data.frame?: 5 obs. of 1 variable: ## $ var1: int 1 2 3 4 5 Pour ajouter une nouvelle variable à une data frame existante:data_test$var4<-c(10:14) data_test data.frame (data_test, var5= rep (?statML?,5 )) head (data_test) 3 ## var1 var2 var3 var4 var5 ## 1 1 a TRUE 10 statML ## 2 2 b TRUE 11 statML ## 3 3 c TRUE 12 statML ## 4 4 d FALSE 13 statML ## 5 5 e FALSE 14 statML

Pour supprimer des colonnes dans une data frame, on peut exploiter la fonctionsubsetdata_test_cut<- subset (data_test,select = - c(var1, var2) )

head (data_test_cut, 2 ## var3 var4 var5 ## 1 TRUE 10 statML ## 2 TRUE 11 statML ou utiliser les numéros des colonnes de la data frame:data_test_cut<- data_test[, - c(1,2)] head (data_test_cut, 2 ## var3 var4 var5 ## 1 TRUE 10 statML ## 2 TRUE 11 statML ou utiliser les noms des variables:drop<- c ("var1","var2") data_test_cut data_test[, names (data_test) %in% drop)] head (data_test_cut, 2 ## var3 var4 var5 ## 1 TRUE 10 statML ## 2 TRUE 11 statML Pour extraire un sous-ensemble de variables ou de colonne on peut de la même façon, utiliser les numéros des colonnes de la data frame:data_test_sub<- data_test[ c(1,2)] head (data_test_sub, 2 ## var1 var2 ## 1 1 a ## 2 2 b utiliser les noms de variables:keep<- c ("var1","var2") data_test_sub data_test[keep] head (data_test_sub, 2 ## var1 var2 ## 1 1 a ## 2 2 b utiliser la fonctionsubset():data_test_sub<- subset (data_test,select = c (var1, var2) ) head (data_test_sub, 2 ## var1 var2 4 ## 1 1 a ## 2 2 b

tibblesLes tibbles sont une variante des data frame, proposée par Hadley Wickham dans la suite de package

"tidyverse". Il s"agit d"une version moderne de data frame oubliant certains aspects désuets des data frame

(convertion des caractères en facteurs, print pas très beau, amélioration de la détection des champs...). Pour

une description détaillée fairevignette("tibble").

Il existe deux grandes différences entre les tibbles et les data frame: l"affichage et le découpage en sous-

ensembles.

Affichage

La fonction print de la classe tibbles représente seulement les 10 premières lignes du tibble et

un nombre de colonnes pouvant s"afficher à l"écran (on peut également customisé l"affichage avec

options(tibble.print_max = n, tibble.print_min = m)). Le type de chaque variable est précisé.

Considérons l"exemple des données de consommation électrique que nous manipulerons au cours des TP de

modélisation suivants.setwd("/Users/yannig/Documents/Enseignement/2017-2018/M2statML/Datasets/France/Data_France/")

Data0 read_csv "Data0.csv" Data0 ## # A tibble: 1,339 x 24 ## Date Load LoadLag1 LoadLag7 T_REAL NEB_REAL VENT_REAL T_NORM ## ## 1 2012-01-01 12:00:00 51600 51600 51600 12.8 6.39 5.51 5.63 ## 2 2012-01-02 12:00:00 66500 51600 66500 8.97 6.44 6.1 5.63 ## 3 2012-01-03 12:00:00 71000 66500 71000 9.97 5.52 8.23 5.63 ## 4 2012-01-04 12:00:00 70700 71000 70700 8.83 3.13 6.71 5.63 ## 5 2012-01-05 12:00:00 72960 70700 72960 10.3 7.75 9.75 5.63 ## 6 2012-01-06 12:00:00 71800 72960 71800 7.63 3.97 5.86 5.63 ## 7 2012-01-07 12:00:00 66700 71800 66700 8.97 6.91 5.1 5.63 ## 8 2012-01-08 12:00:00 63160 66700 51600 8.67 6.86 4.44 5.7 ## 9 2012-01-09 12:00:00 71303 63160 66500 8.8 6.09 3.8 5.7 ## 10 2012-01-10 12:00:00 71885 71303 71000 8.77 5.53 2.96 5.73 ## # ... with 1,329 more rows, and 16 more variables: NEB_NORM , ## # VENT_NORM , dimanche , jeudi , lundi , mardi , ## # mercredi , samedi , vendredi , BH0 , BH1 , ## # Posan , Dow , JourFerie , Instant , Trend

On remarque que le type de chaque variable a été inféré lors de l"import des données. Par exemple, la variable

Date est bien de type Date (et non une chaine de caractère comme ça l"aurait été avec la fonction d"import

de csv du R de base).

Extraction de sous-ensembles

De même qu"avec le type data frame, pour extraire une variable il est possible d"utiliser: $, [["nom"]],

[[numero]].Data0$Load%>%head 5 ## [1] 51600 66500 71000 70700 72960 71800

Data0[[

"Load" head ## [1] 51600 66500 71000 70700 72960 71800Data0[[2]]%>%head ## [1] 51600 66500 71000 70700 72960 71800 Cela peut être inclu dans un pipe via l"indication ".":Data0%>%.$Load%>%head ## [1] 51600 66500 71000 70700 72960 71800Data0%>%.[["Load"]]%>%head ## [1] 51600 66500 71000 70700 72960 71800Data0%>%.[[2]]%>%head ## [1] 51600 66500 71000 70700 72960 71800 Pour l"extraction de lignes il est possible d"utiliser l"instruction de base:Data0[1:4,] ## # A tibble: 4 x 24 ## Date Load LoadLag1 LoadLag7 T_REAL NEB_REAL VENT_REAL T_NORM ## ## 1 2012-01-01 12:00:00 51600 51600 51600 12.8 6.39 5.51 5.63 ## 2 2012-01-02 12:00:00 66500 51600 66500 8.97 6.44 6.1 5.63 ## 3 2012-01-03 12:00:00 71000 66500 71000 9.97 5.52 8.23 5.63 ## 4 2012-01-04 12:00:00 70700 71000 70700 8.83 3.13 6.71 5.63 ## # ... with 16 more variables: NEB_NORM , VENT_NORM , dimanche , ## # jeudi , lundi , mardi , mercredi , samedi , ## # vendredi , BH0 , BH1 , Posan , Dow ,

## # JourFerie , Instant , Trend pour des requêtes plus complexes il est plus commode (et conseillé) d"utiliser les fonctionnalités du package

dplyr::select()etdplyr::filter(). Notons que, contrairement au R de base ou l"instruction [] peut renvoyer une data.frame ou un vecteur, avec tibble elle renvoie toujour un tibble. Importer des données en R à partir d"un fichier plat

Fonctions de base

Le type de fichiers plat le plus courant est le fichicher texte ".txt" délimité (tabulation, virgule, point virgule...).

L"import de ce type fichiers plat en R se fait via la fonctionread.table()dont il existe différentes variantes

(read.csv(),read.delim()...) qui se distinguent selon les valeurs par défaut des paramètres suivants:

•le séparateur •le "header" (la première ligne contient le nom des variables ou pas)

l"argument fill, fill=TRUE signifie que si les lignes ne sont pas de même taille, les trous sont comblés

par des champs vides.

Ces fonctions supposent que les données du fichier texte soient organisées telles que les lignes soient les

observations, les colonnes les variables. 6

Un autre type de fichier couramment utilisé est le fichier excel ".xls". Il existe le packageXLConnectdont la

fonctionreadWorksheetFromFile()réalise l"import de feuilles excel.library(XLConnect)

XLdata

quotesdbs_dbs1.pdfusesText_1