turicas / covid19-br

Dados diários mais recentes do coronavírus por município brasileiro
https://brasil.io/dataset/covid19
GNU Lesser General Public License v3.0
531 stars 128 forks source link

Inconsistência entre valores totais dos Estados #202

Open momenezes opened 4 years ago

momenezes commented 4 years ago

Olá, Eu fiz um tabela com os valores totais por estados usando o seguinte código:

casosfull_brio <- read_csv("./data/caso_full.csv")
casosfull_brio %>% arrange(date) %>% filter(place_type == "city") %>% group_by(state) %>% filter(is_last == TRUE) %>%  summarise(Casos = sum(last_available_confirmed), Mortes = sum(last_available_deaths)) %>% arrange(desc(Casos))
# A tibble: 27 x 3
   state  Casos Mortes
   <chr>  <dbl>  <dbl>
 1 SP    970888  35063
 2 BA    306629   6648
 3 MG    288619   7228

Mas se eu faço a tabela com o seguinte código:

casosfull_brio %>% arrange(date) %>% filter(place_type == "state") %>% group_by(state) %>% filter(is_last == TRUE) %>%  summarise(Casos = last(last_available_confirmed), Mortes = last(last_available_deaths)) %>% ungroup() -> totalestados_orig
`summarise()` ungrouping output (override with `.groups` argument)
> totalestados_orig %>% arrange(desc(Casos))
# A tibble: 27 x 3
   state  Casos Mortes
   <chr>  <dbl>  <dbl>
 1 SP    973142  35125
 2 BA    306629   6648
 3 MG    290137   7240

Os resultados não batem. O correto (soma total de Casos e de Mortes) é o que obtenho no segundo código. Mas por que o primeiro código gera valores errados? Não deveriam ser equivalentes? Abs Mário M.

rfsaldanha commented 4 years ago

Olá! @momenezes ! Isso vai depender muito da Secretaria Estadual de Saúde. Não é difícil que este problema venha do próprio boletim da secretaria. Tente abrir um dos boletins que são usados no projeto e fazer a soma nele.

momenezes commented 4 years ago

Valeu @rfsaldanha . Vou dar uma olhada mais de perto nos dados. Abs