capyvara / brazil-civil-registry-data

Raw scrapings of ARPEN https://transparencia.registrocivil.org.br/
39 stars 10 forks source link

Dúvidas sobre os dados extraídos do Registro Civil #9

Open gjdutra opened 3 years ago

gjdutra commented 3 years ago

Oi meu caro, tudo bem? Eu vi os dados que você está extraindo da base de registro civil sobre Covid-19 e gostaria de tirar algumas dúvidas com você. Você saberia me informar porque tem a divisão das mortes de Covid-19 em três variáveis:

capyvara commented 3 years ago

Sim, é necessário somar, olhem as notas no fim da página deles de como é separado isso: https://transparencia.registrocivil.org.br/especial-covid

Mapeamento: https://transparencia.registrocivil.org.br/covid/dicionario_cardiaco.pdf

Eu costumo agrupar assim:

df2["others"] = grp["deaths_others"] + grp["deaths_indeterminate"]
df2["stroke"] = grp["deaths_stroke"]
df2["septicemia"] = grp["deaths_septicemia"]
df2["respiratory_failure"] = grp["deaths_respiratory_failure"]
df2["pneumonia"] = grp["deaths_pneumonia"]
df2["heart"] = grp["deaths_cardiopathy"] + grp["deaths_cardiogenic_shock"] + grp["deaths_heart_attack"] + grp["deaths_sudden_cardiac"]
df2["sars"] = grp["deaths_sars"]
df2["covid19"] = grp["deaths_covid19"] + grp["deaths_stroke_covid19"] + grp["deaths_heart_attack_covid19"]
gjdutra commented 3 years ago

Muito obrigado pelo retorno :).

Eu fiz a soma dos óbitos de Covid-19 e fiquei com mais uma dúvida. Consegui encontrar um total de 196154 mortes de Covid-19 no banco de dados, referente ao ano de 2020. Porém, o gráfico do portal de transparência do Registro Civil demonstra um total de 197370 (https://transparencia.registrocivil.org.br/especial-covid). Você sabe porque pode estar acontecendo essa diferença? É possível que essa diferença esteja associada a missings de preenchimento de variáveis como sexo ou raça/cor nas declarações de óbito?

capyvara commented 3 years ago

Eu somei o meu aqui agora, versão com os estados de hoje de manhã e deu 197372, covid sendo a soma mencionada acima.

O de cidades não contém todas as cidades do Brasil, seria infactível fazer o scrap pelo tempo e erros que ocorrem no processo.