Skip to content

Carnet de développement

Joseph edited this page Jul 12, 2015 · 10 revisions

Structuration du texte

Un des objectifs d'analyse-R est d'essayer d'adopter une approche cohérence de chapitres en chapitres, notamment autour de certains packages privilégiés.

Dès lors, on essaiera tant que faire se peut de prioriser l'utilisation de certains packages sur d'autres :

  • graphiques : ggplot2 > lattice > base > autres logiciels
  • import / export : haven, readr, readxl > foreign > autres fonctions > autres logiciels
  • données : data.table ou data_frame > data.frame > matrix > autres objets

Plus généralement, il s'agit de faire tout ce qu'on peut avec les packages du Hadleyverse, qui sont rapides et cohérents entre eux :

  • dplyr (et donc la classe tbl_df dès que possible, plus d'emmerdes avec stringsAsFactors)
  • data.table (certes n'appartenant pas au Hadleyverse mais très puissant et compatible)
  • reshape2 (installé avec ggplot2, et plus facile d'usage que tidyr, même si peut-être moins puissant/rapide)
  • ggplot2, of course
  • haven, readr, readxl
  • broom pour nettoyer les résultats de modèles
  • rvest + httr pour le scraping (qui utilisent XML et RCurl en backend, respectivement)
  • stringr + lubridate pour les chaînes de texte et les dates

Utilisation conjointe de dplyr et data.table

Dans les versions récentes de dplyr, les fonctionnalités de dplyr peuvent s'appliquer à un objet data.table.

Dans le cas de fichiers de données d'exemple, on les fournira sous format data_frame et, si on utilise data.table, on aura un appel explicite à as.data.table

Eléments communs aux fichiers .Rmd

Les fichiers commenceronts tous par

---
title: "Analyse en composantes principales (ACP)"
---

```{r options_communes, include=FALSE}
source("options_communes.R")
```