Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Censo -- Inconsistências em posição na ocupação #126

Closed
IgorRigolon opened this issue Oct 8, 2024 · 5 comments
Closed

Censo -- Inconsistências em posição na ocupação #126

IgorRigolon opened this issue Oct 8, 2024 · 5 comments
Labels
bug Something isn't working

Comments

@IgorRigolon
Copy link
Contributor

Estou trabalhando nos microdados do CENSO de 1970/1980/1991 e achei algumas inconsistências curiosas em uma variável.

Trata-se da "pos_ocup_hab", posição na ocupação, entre os censos de 1980 e 1991 especificamente. Eu vejo no dicionário de vocês que há nove opções entre 0 e 8, que apresentam resultados bastante distintos em 1980 nas opções 1 e quantidade de NA's quando comparada com a mesma variável em 1991.
Eu gostaria de saber se é possível considerar a opção 0 "Sem remuneração" com NA's e vice-versa. Pergunto isso, pois analisando os microdados de 1990 desta variável "pos_ocup_hab" com a de mesmo nome "pos_ocup_sem" em 2000 e em 2010, me parece fazer mais sentido que a opção "sem remuneração" tenha um quanto baixa de respostas.

Eu não sei se alguém já notou isso, ou se eu por acaso estou confundido algo.

@vitorvidal89
Copy link

Estou usando a seguinte compatibilização em anexo.

Resultados "estranho" como abaixo me sugerem ter algo errado.
CENSO_Dicionario_compatibilizado (1).xlsx

<style> </style>
Worker's position (census 2000) - full sample, all states Yes - contributed for the pension system
Employee with formal contract 0.0%
Military and Government Officials 0.0%
Employee without formal contract 21.4%
Domestic Employee with formal contract 0.0%
Domestic Employee without formal contract 3.5%
Selfemployed/Autonomous 54.4%
Employer 20.8%
Not remunerated 0.0%
Produces for own consumption 0.0%

image

@lauratregadas
Copy link
Contributor

Essa issue trata de duas questões diferentes. Trato aqui da primeira, sobre a variável pos_ocup_hab. Ela é construída na compatibilização apenas para os anos 1980 e 1991. Ainda temos uma variável parecida para 1970. No entanto, a variável pos_ocup_sem dos anos 2000 e 2010 muda bastante o formato da pergunta.

Sobre pos_ocup_hab, não parece haver nada de errado. Os resultados entre 1980 e 1991 são surpreendentemente consistentes: ~3% de 0 e ~61% de NAs. Os demais valores possíveis aparecem, indicando que tudo funciona bem. Por fim, a opção 0 (sem remuneração) não é equivalente a NA. A primeira dá informação de alguém que trabalha, mas não recebe remuneração, a segunda não informa nada. Não é correto assumir que NA equivale a não ter remuneração, pois pode corresponder a pessoas que não trabalham, a erros de preenchimento do formulário, etc.

@lauratregadas
Copy link
Contributor

Agora tratando do segundo problema, sobre a variável previd_B. Consegui reproduzir os resultados apresentados por @vitorvidal89 para 2000. Para 2010, também encontro tudo 0 para as categorias 1, 2, 4 e 9 (8 não). Tentei reproduzir o erro com dados de 2010 não compatibilziados e encontrei tudo zero para v6930 igual a 1, 2 e 7. No código da função, v6930 = 7 é transformado em 9 na pos_ocup_sem. Conclusão: 0 na categoria 4 pode ser um problema de compatibilização. Nas categorias 1, 2 e 9 não, pois antes da compatibilziação já existe o problema. Vale notar que v6930 tem observações em todos os períodos. Não faz sentido todos nesses grupos terem NA para contribuição na previdência social.

@lauratregadas lauratregadas added the bug Something isn't working label Oct 31, 2024
@lauratregadas
Copy link
Contributor

Oi, @vitorvidal89 ! Obrigada por reportar esse problema. Ele existe de fato. Infelizmente, parece que não há nada que possamos fazer. Verificamos que ele é anterior à compatibilização feita pelo Data Zoom. Nesse estágio, tudo que nosso código faz é ver os dados. Como faltam observações para vários grupos, checamos se era um problema no dicionário, mas todas as variáveis usadas para construir essas estão com dicionário ok. Concluimos então que é um problema dos dados crus que vem do IBGE. Ainda assim, conseguimos gerar uma melhora a partir do seu comentário, como mostra o pull request #133

@lauratregadas lauratregadas closed this as not planned Won't fix, can't repro, duplicate, stale Oct 31, 2024
@vitorvidal89
Copy link

vitorvidal89 commented Nov 6, 2024 via email

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

3 participants