-
Notifications
You must be signed in to change notification settings - Fork 16
/
Copy pathsurvey.theory.txt
204 lines (194 loc) · 10.6 KB
/
survey.theory.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
┏━━━━━━━━━━━━┓
┃ SURVEY ┃
┗━━━━━━━━━━━━┛
Utilisation possible des statistiques :
- official statistics (public funded, par ex. analyse taux chômage, IPSOS, etc.)
- market research
- scientifical research
- opinion polls
Target pop. :
- pas forcément personnes, peut être personne morale
Census/complete enumeration :
- quand tous individus de la pop. sont interrogés
- pbs :
- plus cher
- plus long, donc résultats moins représentatif d'un instant
- si itéré, respondants moins coopératifs
Steps :
- survey design
- specification of the initial question
- choosing :
- target pop.
- si l'on arrive à trouver un sous-groupe où il est peu clair s'il fait partie de la target pop., définition de target
pop. doit être refined
- the estimated pop. parameters
- the variables used to measure them
- target vs auxiliary variables :
- target variable :
- measure les pop. parameters
- si parameters qualitatives, target variables sont souvent multiples et non-identiques aux parameters
- ex: French people sport behaviour -> nb heures, type de sport, etc.
- auxiliary variable :
- ne measure pas les parameters (souvent already known), mais d'autres infos générale sur l'individu (ex: gender, age, etc.)
- utilisé pour corriger nonresponse par ex., et permet également de correler target statistics avec ces statistics
de manière secondaire
- sample target/aux. values vs target/aux. variables values :
- si individu présent plusieurs fois dans un sample, plusieurs samples values pour une seule target variable value
- choix des estimators pour sample values -> target/aux. variables
- estimator + sampling design = sampling strategy
- sampling frame
- subset de la target pop., avec coordonnées pour contacter
- doit être représentatif de la target pop.
- undercoverage :
- sous-représentation d'un groupe de la target pop. dans la sampling frame
- pb. si ce groupe differ significantly from the sampling frame
- overcoverage : sur-représentation
- dont doublons
- plus facile à détecter/corriger qu'undercoverage
- sample est un subset de la sampling frame
- pbs dûs à différence d'units entre sampling frame et target pop.
- lors du sampling process, garder à l'esprit l'unit de la target pop.
- ex:
- target pop. est personnes, et sampling frame sont adresses
- pb -> si sélection uniforme aléatoire parmi adresse, prob. personnes dans grandes familles décroit
- sampling design :
- manière avec laquelle on choisit le sample
- sampling distribution des samples :
- dist. des samples possibles, selon le sampling design voulu, noté ̊s
- first-order inclusion/selection :
- dist. de la présence/absence des individus sampled
- cad la présence moyenne pour chaque individu
- pondéré par ̊s, comme autres statistics
- un individu peut être présent plusieurs fois sur un sample, si without replacement
- n-order inclusion/selection :
- dist. de la présence/absence des combinaisons de n individus sampled
- with replacement vs without replacement
- ensemble des statistics sont pondérées par ̊s
- ex: ̊μ est μ(chaque s) pondéré par ̊s
- sample design vs selection scheme
- sample design : theory, définition de ̊s
- selection scheme : implementation, selection permettant d'obtenir ̊s
- sample doit être représentatif de target pop., donc de sampling frame
- définition : ̊a₁ = ̊a₀, où a₁ est une auxiliary statistic pour le sample, et a₀ pour un sample de l'ensemble de la
pop.
- "representative" vis-à-vis de a alors
- ex: %hommes dans sample == %hommes de la pop. (en fait ̊)
- but : que ̊m₁ = ̊m₀, où m est la target statistic
- sinon, il s'agit d'un "sampling bias"
- sélection procedure :
- soit x₁,...,xₙ les statistics dont le sample doit être representative, et X₁,...,Xₙ ces statistics pour l'ensemble
de la pop.
- types (à vérifier) :
- selection with equal prob. :
- pour chaque sample ̊xₙ == ̊Xₙ
- selection with unequal prob. :
- pour un ensemble de samples, μ(̊xₙ) == ̊Xₙ
- sample size
- reference date : instant où estimation est valide
- data collection
- choosing type of questionnaire :
- paper-based (PAPI)
- CAI (Computer-Assisted Interviewing) :
- CATI (Telephone)
- CAPI (Personal) : face-to-face, mais interviewer utilise app.
- CASI (self) : pas d'interviewer, seulement une app.
- CAWI (Web) :
- mail
- website
- data editing
- enlever les erreurs
- range error : réponse impossible
- constitency error : plusieurs réponses incompatibles entre elles
- routing error : ne répond pas comme il faut aux questions
- nonresponse correction
- weighting adjustment
- donne une weight à chaque individu en fonction des statistics de target pop. pour que sample semble proportionnel, cad
uniformément aléatoire sample, de celle-ci.
- imputation : remplacer les NA
- data analysis
- descriptive ou inductive
- publication
- conflit entre vulgarisation et possibilité pour experts de vérifier validité du report
Selection bias :
- statistical bias dû à la sélection
- types :
- sampling bias :
- sous-groupe plus représentés que d'autres (non representative)
- ex:
- sélection sur un channel/lieu précis
- self-selection : quand individu a choix de refuser ou non l'experiment
- time interval :
- arrêter le survey lorsque les résultats prouvent une hypothèse ad-hoc
- data :
- rejet de data qui devraient être inclus
- ex: outliers qui ont pourtant des infos importantes
- studies :
- ne reporter que/mettre l'accent sur l'experiment favorable
- attrition bias :
- nonresponse : individu refuse l'experiment
- dropout : individu quitte l'experiment en cours
- protocol deviator : individu ne suivent pas le protocol de l'experiment
Pb de privacy des individus interrogés (disclosure)
Online survey :
- undercoverage des personnes sans Internet
Capture-recapture :
- technique pour estimer la pop.size d'un groupe d'animaux
- m sont capturés, badgés puis relâchés. Ensuite on recapture et on constate la prop. étant badgés, et en induit la pop.size
Sampling strategies :
- tous appelés "random sampling" (!= simple random sampling)
- types généraux :
- EPSEM (Equal prob. of selection method)
- Uniformément random parmi les individus
- n'exige pas d'infos sur la pop.
- mais exige sampling frame uniformément choisie parmi pop., ce qui est pas toujours possible
- plus cher
- UPSEM (Unequal) :
- certains individus ont plus de chance d'être choisis que d'autres
- types :
- EPSEM :
- simple random sampling (SRS) :
- choix d'un individu ne dépend pas des précédents individus choisis
- cad first-order inclusion = n-order inclusion pour tout n
- systematic sampling :
- choix d'un individu dépend des précédents individus choisis
- cad first-order inclusion != n-order inclusion
- ex: soit S arrangés de manière aléatoire et de taille n, choisir U(0,n) + k-1 éléments suivants
- doit prendre garde à ce qu'ordre des éléments dans sampling frame soit aléatoire
- ex: si annuaire téléphonique, prendre noms alphabétiques suivants fait que personnes de même origine auront plus de chance d'être sampled ensemble
- éviter schéma simple tel que "n éléments suivants" si sampling frame n'est que semi-aléatoire
- UPSEM :
- stratified sampling :
- quand pop. est composée de subpop. (appelées strata) variant les uns par rapport aux autres (vis-à-vis des variables à étudier)
- ex: gender, age, etc. par rapport à bcp de variables
- but est de réduire la sampling bias, plus representative
- somme des strata = pop., et sont mutually exclusive
- si plusieurs facteurs diviseur de subpop. (par ex. genre et age), faire des subpop. mutually exclusive (par ex. homme < 25 ans)
- stratification :
- partionnement de la sampling frame où taille de subpop. est choisie selon :
- proportionate allocation :
- prop. à la taille des strata (cad mêmes proportions que strata)
- optimum/disproportionate allocation :
- prop. à la σ des strata
- permet de réduire σ du sample
- chaque stratum est ensuite EPSEM'd
- cluster sampling :
- quand pop. est composé de subpop. (appelés clusters) variant peu les uns par rapport aux autres (vis-à-vis des variables à étudier)
- ex: différentes classes de CM1 (si élèves sont affectés aux classes respectives de manière pseudo-aléatoire)
- somme des clusters = pop., et mutually exclusive
- alors on EPSEM un ensemble de clusters. Ensuite, les éléments des clusters :
- simple-stage : sont tous sélectionnés
- multistage :
- sont EPSEM'd ou UPSEM'd
- multistage de cluster sampling successifs aboutissant à un simple-stage cluster sampling :
- but peut être de n'avoir à avoir une liste exhaustive que des sous-clusters finaux
- il faut obtenir la statistic de chaque cluster, puis obtenir moyenne des clusters
- par opposition à prendre directement ensemble des individus de tous les clusters
- raison : permet d'identifier si les clusters ne sont en fait pas homogènes, dont outliers
- moyenne des clusters doit prendre en compte taille des clusters. Solutions possibles :
- moyenne pondérée par taille
- clusters de même taille
- prob. de sélection prop. taille du cluster, puis moyenne normale ("prob. prop. to size sampling")
- but :
- efficience car coût d'interview au sein d'un même cluster < coût entre clusters différents
- types :
- area/geographical sampling