Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

ajout fiche gerer ressources #328

Open
clerousset opened this issue May 20, 2021 · 1 comment · May be fixed by #335
Open

ajout fiche gerer ressources #328

clerousset opened this issue May 20, 2021 · 1 comment · May be fixed by #335

Comments

@clerousset
Copy link
Contributor

je rajouterais bien les paragraphes suivants dans la fiche gerer_ressources sur les problèmes de RAM (ce qui permettrait de caser un certain nombre de mes conseils pour les gens venant de SAS) :

Choisir les classes de colonne les plus économes

Chaque colonne d'un data.frame a une classe qui sont plus ou moins gourmandes en mémoire. Grosso modo, dans R, les classes integer, logical et factor sont économes alors que les classes numeric et character prennent beaucoup de cases mémoires. Ainsi il est souvent recommandé de transformer une colonne de character en factor et de vérifier si une colonne de numeric ne peut pas être passée en integer.

Eviter les valeurs manquantes inutiles

Une valeur manquante prend la même place en mémoire qu'une valeur non manquante. Il faut donc chercher à ne pas en abuser. Une valeur est manquante soit quand elle est en attente de remplissage (imputation statistique par exemple), soit quand la remplir serait absurde. Dans ce dernier cas, repenser la structure des bases peut être utile. Prenons une base individuelle contenant le nombre d'enfants de chacun et l'année de naissance des enfants. La structure de base suivante :

id nb_enfant annee_naissance_enfant_1 annee_naissance_enfant_2 annee_naissance_enfant_3 annee_naissance_enfant_4
1 4 1980 1982 1986 1990
2 1 1986 NA NA NA
3 0 NA NA NA NA

est problématique car, par exemple, la colonne annee_naissance_enfant_4 aura beaucoup de valeurs manquantes et prendra beaucoup de place pour peu d'informations.

La même information peut se mettre en deux bases :

  • une individuelle réduite :
id nb_enfant
1 4
2 1
3 0
  • une spécifique aux années de naissance des enfants :
id annee_naissance_enfant
1 1980
1 1982
1 1986
1 1990
2 1986

Faire la chasse aux informations redondantes

Le fait que la base tienne dans la RAM permet d'accélérer les calculs. Aussi il est souvent préférable de réduire la taille de la base même au prix de quelques calculs supplémentaires. Par exemple supposons qu'on ait une colonne date_naissance qui soit au format Date et que, très souvent, on ait besoin de l'année naissance ou du mois de naissance de l'individu. Créer les colonnes annee_naissance = year(dateNaissance) et mois_naissance = month(dateNaissance) peut être tentant mais bien souvent la perte de RAM associée à ces deux nouvelles colonnes sera plus dommageable que l'inconvénient de devoir à chaque fois réécrire year(dateNaissance), quitte à demander 30 fois à R de refaire ce petit calcul.

@oliviermeslin
Copy link
Contributor

Merci @clerousset pour ces propositions. Tout ceci me semble très utile. N'hésite pas à faire une PR pour ajouter ces éléments.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

Successfully merging a pull request may close this issue.

3 participants