-
Notifications
You must be signed in to change notification settings - Fork 42
Carnet de développement
Joseph edited this page Jul 12, 2015
·
10 revisions
Un des objectifs d'analyse-R est d'essayer d'adopter une approche cohérence de chapitres en chapitres, notamment autour de certains packages privilégiés.
Dès lors, on essaiera tant que faire se peut de prioriser l'utilisation de certains packages sur d'autres :
- graphiques : ggplot2 > lattice > base > autres logiciels
- import / export : haven, readr, readxl > foreign > autres fonctions > autres logiciels
- données : data.table ou data_frame > data.frame > matrix > autres objets
Plus généralement, il s'agit de faire tout ce qu'on peut avec les packages du Hadleyverse, qui sont rapides et cohérents entre eux :
- dplyr (et donc la classe tbl_df dès que possible, plus d'emmerdes avec stringsAsFactors)
- data.table (certes n'appartenant pas au Hadleyverse mais très puissant et compatible)
-
reshape2 (installé avec ggplot2, et plus facile d'usage que
tidyr
, même si peut-être moins puissant/rapide) - ggplot2, of course
- haven, readr, readxl
- broom pour nettoyer les résultats de modèles
-
rvest + httr pour le scraping (qui utilisent
XML
etRCurl
en backend, respectivement) - stringr + lubridate pour les chaînes de texte et les dates
Dans les versions récentes de dplyr
, les fonctionnalités de dplyr
peuvent s'appliquer à un objet data.table
.
Dans le cas de fichiers de données d'exemple, on les fournira sous format data_frame
et, si on utilise data.table
, on aura un appel explicite à as.data.table
Les fichiers commenceronts tous par
---
title: "Analyse en composantes principales (ACP)"
---
```{r options_communes, include=FALSE}
source("options_communes.R")
```