gustavoalcantara / repositorio_unicamp

Repositório para colocar meus códigos da disciplina de Bancos de dados em Demografia do PPGD da Unicamp
1 stars 0 forks source link

Exercicio 4 #7

Open gustavoalcantara opened 3 years ago

gustavoalcantara commented 3 years ago

rm( list = ls( ) ) graphics.off() getwd() setwd('C:\Users\User\Desktop\Gustavo\Unicamp\Mestrado\1sem2021\dm026\aula_dplyr') library(dplyr) library(ggplot2) library(data.table) library(readr) library(readxl) dir.create('temp') dir.create('temp_nov')

baixei os dicionários antes para manipulação

download e extração dos dados via R

Download

download.file(url='https://ftp.ibge.gov.br/Trabalho_e_Rendimento/Pesquisa_Nacional_por_Amostra_de_Domicilios_PNAD_COVID19/Microdados/Dados/PNAD_COVID_052020.zip', destfile='temp_mai.zip') #mes de maio

download.file(url='https://ftp.ibge.gov.br/Trabalho_e_Rendimento/Pesquisa_Nacional_por_Amostra_de_Domicilios_PNAD_COVID19/Microdados/Dados/PNAD_COVID_112020.zip', destfile='temp_nov.zip') #mes de novembro

extracao

unzip( zipfile = 'temp.zip', #mes de maio exdir = 'C:\Users\User\Desktop\Gustavo\Unicamp\Mestrado\1sem2021\dm026\aula_dplyr\temp_mai')

unzip( zipfile = 'temp_nov.zip', #mes de novembro exdir = 'C:\Users\User\Desktop\Gustavo\Unicamp\Mestrado\1sem2021\dm026\aula_dplyr\temp_nov')

lendo as bases

maio <- fread('C:\Users\User\Desktop\Gustavo\Unicamp\Mestrado\1sem2021\dm026\aula_dplyr\temp_mai\PNAD_COVID_052020.csv') nov <- fread('C:\Users\User\Desktop\Gustavo\Unicamp\Mestrado\1sem2021\dm026\aula_dplyr\temp_nov\PNAD_COVID_112020.csv')

Questão 1 - Mês de Maio

selecionar as variaveis que vou trabalhar

maio %>% rename(sexo = A003, dor_gar=B0013, dif_resp=B0014)%>% mutate(sex_cat=if_else(sexo==1, 'homem', "mulher")) %>% select(sex_cat, dor_gar, dif_resp) %>%
mutate(garganta=case_when(dor_gar==1~ 'sim', dor_gar==2~'nao', dor_gar==3~'ignorado', dor_gar==9~'ignorado')) %>% mutate(respirar=case_when(dif_resp==1~'sim', dif_resp==2~'nao', dif_resp==3~'ignorado', dif_resp==9~'ignorado'))->maio_exerc1

filter(maio_exerc1, garganta=='sim', respirar=='sim') -> maio_exerc1 ftable(maio_exerc1$sex_cat~maio_exerc1$garganta) #quem mais apresentou os dois sintomas em conjunto.

Questão 1 - Mês de Novembro

nov %>% #as variaveis são iguais rename(sexo = A003, dor_gar=B0013, dif_resp=B0014)%>% mutate(sex_cat=if_else(sexo==1, 'homem', "mulher")) %>% select(sex_cat, dor_gar, dif_resp) %>%
mutate(garganta=case_when(dor_gar==1~ 'sim', dor_gar==2~'nao', dor_gar==3~'ignorado', dor_gar==9~'ignorado')) %>% mutate(respirar=case_when(dif_resp==1~'sim', dif_resp==2~'nao', dif_resp==3~'ignorado', dif_resp==9~'ignorado'))->nov_exerc1

filter(nov_exerc1, garganta=='sim', respirar=='sim') -> nov_exerc1 ftable(nov_exerc1$sex_cat~nov_exerc1$garganta) #quem mais apresentou em novembro?

Exercicio 2 para o mês de maio##.

Das pessoas que apresentaram ambos os sintomas? quem mais realizou quarentena? Homens ou Mulheres?

ftable(maio$A003~maio$B0031) maio %>% filter(!is.na(B0031)) %>% select(B0031, A003, B0013, B0014) %>% mutate(sex_cat=if_else(A003==1, 'homem', "mulher")) %>% mutate(quarentena=case_when(B0031==1~ 'sim', B0031==2~'nao', B0031==9~'ignorado')) %>% mutate(dor_garganta=case_when(B0013==1~'sim', B0013==2~'nao', B0013==3~'ignorado', B0013==9~'ignorado')) %>% mutate(respirar=case_when(B0014==1~'sim', B0014==2~'nao', B0014==3~'ignorado', B0014==4~'ignorado')) %>% select(sex_cat, quarentena, dor_garganta, respirar)->maio_exerc2

filter(maio_exerc2, dor_garganta=='sim', respirar=='sim', quarentena=='sim') ->maio_exerc2

ftable(maio_exerc2$sex_cat~maio_exerc2$quarentena)

ggplot(data=maio_exerc2)+ geom_bar((aes(x=as.factor(sex_cat))))

Mes de novembro

nov %>% filter(!is.na(B0031)) %>% select(B0031, A003, B0013, B0014) %>% mutate(sex_cat=if_else(A003==1, 'homem', "mulher")) %>% mutate(quarentena=case_when(B0031==1~ 'sim', B0031==2~'nao', B0031==9~'ignorado')) %>% mutate(dor_garganta=case_when(B0013==1~'sim', B0013==2~'nao', B0013==3~'ignorado', B0013==9~'ignorado')) %>% mutate(respirar=case_when(B0014==1~'sim', B0014==2~'nao', B0014==3~'ignorado', B0014==4~'ignorado')) %>% select(sex_cat, quarentena, dor_garganta, respirar)->nov_exerc2

ftable(nov_exerc2$sex_cat~nov_exerc2$quarentena) ggplot(data=nov_exerc2)+ geom_bar((aes(x=as.factor(sex_cat))))

exercicio 3

maio %>% select(A003, A005, B0011, B0012) %>% filter(!is.na(A005)) %>% mutate(feb_tos=(B0011+B0012)/2) %>% #criando a variavel mutate(sexo=if_else(A003==1, "homem", "mulher")) %>% mutate(escolaridade=case_when(A005==1~'sem instrucao', #nivel de instrucao A005==2~'fund incompleto', A005==3~'fund completo', A005==4~'med incompleto', A005==5~'med completo', A005==6~'sup incompleto', A005==7~'sup completo', A005==8~'pos grad')) %>% mutate(sintomas=case_when(feb_tos==1~'sim', #apresentou os dois sintomas em conjunto? feb_tos==2~'nao', feb_tos==3~'ignorado', feb_tos==9~'ignorado')) %>% filter(sintomas=='sim') ->exerc3_maio

ftable(exerc3_maio$sintomas~exerc3_maio$escolaridade)

windows() #grafico que apresenta os dois sintomas a partir da variavel escolaridade ggplot(data=exerc3_maio)+ geom_bar(aes(x=escolaridade)) #infelizmente nao consegui ordena-lo

exercicio 3 - Novembro

nov %>% select(A003, A005, B0011, B0012) %>% filter(!is.na(A005)) %>% mutate(feb_tos=(B0011+B0012)/2) %>% #criando a variavel mutate(sexo=if_else(A003==1, "homem", "mulher")) %>% mutate(escolaridade=case_when(A005==1~'sem instrucao', #nivel de instrucao A005==2~'fund incompleto', A005==3~'fund completo', A005==4~'med incompleto', A005==5~'med completo', A005==6~'sup incompleto', A005==7~'sup completo', A005==8~'pos grad')) %>% mutate(sintomas=case_when(feb_tos==1~'sim', #apresentou os dois sintomas em conjunto? feb_tos==2~'nao', feb_tos==3~'ignorado', feb_tos==9~'ignorado')) %>% filter(sintomas=='sim') ->exerc3_nov

ftable(exerc3_nov$sintomas~exerc3_nov$escolaridade) ggplot(data=exerc3_nov)+ geom_bar(aes(x=escolaridade)) #tambem nao consegui ordena-lo.

exercicio 4

maio %>% select(V1013, A003, B0014) ->exerc4_maio

nov %>% select(V1013, A003, B0014) ->exerc4_nov

rbind(exerc4_maio, exerc4_nov)->covid_geral #banco para trabalhar

covid_geral %>% filter(!is.na(B0014)) %>% #verificar se tem NA mutate(mes=if_else(V1013==5,'maio', 'nov')) %>% mutate(dif_resp=case_when(B0014==1~'sim', B0014==2~'nao', B0014==3~'ignorado', B0014==9~'ignorado')) ->covid_geral2

ggplot(data=covid_geral2,aes(x=mes, fill=dif_resp))+ geom_bar(position='fill')+scale_y_continuous((labels=scales::percent))+ theme_dark()+ggtitle("Evolucao das Declaracoes em Maio e Novembro de 2020") + labs(x='Mes', y='percentual', fill='teve dificuldade de respirar?')