Estudar dados consolidados do Ministério da Saúde

turicas commented 4 years ago

O Ministério da Saúde está disponibilizando dados por município (clicar no link "Arquivo CSV"). Antes de alterarmos nossa rotina de captura de dados (para decidir se adotamos ou não esses), precisamos fazer algumas verificações para entender as diferenças com relação aos dados que já estamos coletando das SES, como:

[ ] Checar o histórico
[ ] Checar consistência de atualização (todo dia? mudam formato?)
[ ] Checar consistência de atualização

Algumas pessoas já me relataram que os dados estão levemente atrasados e que há mudança no formato (com perda de dados), como é possível ver nesse tweet (print aqui).

Para automatizar a captura desse arquivo (que, na verdade, é um XLS), temos que pegá-la no resultado da requisição para https://xx9p7hp1p7.execute-api.us-east-1.amazonaws.com/prod/PortalGeral (se essa URL for dinâmica, temos que acessar o painel principal para pegá-la) na chave response["results"][0]["arquivo"]["url"] (response é o JSON de resposta decodificado). Segue um exemplo do arquivo para hoje: HIST_PAINEL_COVIDBR_19mai2020.xlsx.zip

Essa issue poderia também ser resolvida de maneira automatizada, consolidando os microdados (quando tivermos eles) e, por isso, está relacionada às seguintes issues:

IMPORTANTE: quando possível, publique trechos de código que foram desenvolvidos para fazer as análises/comparações.

endersonmaia commented 4 years ago

eu automatizei o download dos arquivos PDF e CSV (microdados) de Alagoas com um script rodando periodicamente no GitHub Actions e já faz commit no próprio repositório

acho válido para garantirmos que estamos baixando os arquivos e para avaliar modificações feitas,

https://github.com/endersonmaia/covid19-alagoas/tree/master/sintomas

https://github.com/endersonmaia/covid19-alagoas/blob/master/.github/workflows/download-microdados.yaml

poderíamos fazer algo parecido no Brasil.IO (tem que ver os limites do GitHub)

turicas commented 4 years ago

eu automatizei o download dos arquivos PDF e CSV (microdados) de Alagoas com um script rodando periodicamente no GitHub Actions e já faz commit no próprio repositório

@endersonmaia muito bom! Eu acho que podemos manter os arquivos em outro lugar (no storage do Brasil.IO, que é compatível com S3) e uma listagem com os links/datas. Mas para isso precisaríamos de um script que baixa esses dados (daí rodar o script automaticamente e subir no S3 podemos automatizar via GitHub ou de outra forma).

horta commented 4 years ago

O seguinte python script pega a url do dia para fazer o download.

# Install: pip install helium
# Run: python fetch_consolidados_ms.py
import json
import sys
from time import sleep

from helium import S, click, kill_browser, start_chrome, wait_until
from selenium import webdriver
from selenium.common.exceptions import TimeoutException

opts = webdriver.ChromeOptions()
opts.set_capability("loggingPrefs", {"performance": "ALL"})
driver = start_chrome("https://covid.saude.gov.br/", options=opts)
wait_until(S("ion-button").exists)
sleep(3)
click("Arquivo CSV")

def process_browser_log_entry(entry):
    response = json.loads(entry["message"])["message"]
    return response

URL = None

def fetch_download_url():
    global URL

    browser_log = driver.get_log("performance")
    events = [process_browser_log_entry(entry) for entry in browser_log]
    responses = [event for event in events if "Network.response" in event["method"]]

    for r in responses:
        if "params" not in r:
            continue
        params = r["params"]
        if "response" not in params:
            continue
        if "url" not in params["response"]:
            continue
        url = params["response"]["url"]
        if "HIST_PAINEL_COVIDBR" in url:
            URL = url
            return True

    return False

try:
    wait_until(fetch_download_url, timeout_secs=15)
except TimeoutException as e:
    print("Failed!")
    print(e)
else:
    print("Success: {}".format(URL))
finally:
    kill_browser()

if URL is None:
    sys.exit(1)

Por examplo, executando aqui no terminal:

$ python fetch_consolidados_ms.py                                                                                                                             
Success: https://mobileapps.saude.gov.br/esus-vepi/files/unAFkcaNDeXajurGB7LChj8SgQYS2ptm/a3d153fe0e95aa7e0d3a585c317a1dc6_HIST_PAINEL_COVIDBR_20mai2020.xlsx

Eh util?

geamaro commented 4 years ago

Há um erro terrível nesses dados, que observei para o Estado de Roraima (precisa confirmar se aconteceu a mesma coisa para outros estados): a data que consta como registro é um dia após o efetivo registro na Secretraria de Saúde do Estado. Isso porque baseia-se na data do Boletim Epidemiológico, que sai no dia seguinte pela manhã, sendo que os dados foram informados no dia anterior.

fernandascovino commented 4 years ago

O código dos municípios na tabela do MS consolidada não bate com o código IBGE. Por exemplo, Brasília está com o código 530010.0 - falta a última casa (na tabela do Brasil.IO, corretamente, está 5300108.0). Quando fui comparar os códigos em ambas, achei mais de 3500 municípios com esse problema!

endersonmaia commented 4 years ago

O código dos municípios na tabela do MS consolidada não bate com o código IBGE. Por exemplo, Brasília está com o código 530010.0 - falta a última casa (na tabela do Brasil.IO, corretamente, está 5300108.0). Quando fui comparar os códigos em ambas, achei mais de 3500 municípios com esse problema!

O IBGE tem 6 dígitos, o 7o dígito é o dígito verificador.

Esse .0 aí no exemplo que vc enviou, provavelmente é algum erro de importação, q considerou o valor como número com precisão , ao invés de texto ou número inteiro.

rfsaldanha commented 4 years ago

Um outro detalhe. No arquivo Excel do MS, alguns códigos de município só tem zeros após o código da UF (ex. 110000, 310000, 290000) e o município não tem nome.

Isso é uma codificação interna do próprio DataSUS. Significa "Município ignorado da UF".

fernandascovino commented 4 years ago

@endersonmaia obrigada pelo aviso! Estou acostumada a a ver sempre com o verificador, tinha até dado uma procurada com os códigos de 6 dígitos no Google mas não tinha nenhuma referência ao município ou IBGE. Vou examinar novamente trincando o número! :) (sim, o .0 é só porque o valor foi lido como float)

horta commented 4 years ago

notebook no github: https://github.com/horta/covid19/blob/master/Consolidados%20MS.ipynb Interativo: https://mybinder.org/v2/gh/horta/covid19/master?filepath=Consolidados%20MS.ipynb

Alguem em o arquivo do dia 21? *_HIST_PAINEL_COVIDBR_21mai2020.xlsx?

fmplim commented 4 years ago

@fernandascovino , @endersonmaia viram que no arquivo atual do MS foi acrescentado o dígito verificador no código do ibge só de 19/5 para trás, e que nessas datas os nomes dos municípios ficaram vazios? Ou seja, para cada cidade, dependendo do período tem ou não o dígito verificador e tem ou não o nome do município.

horta commented 4 years ago

Oi @fmplim, tem como disponibilizar os arquivos? Gostaria de compara-los tambem.

horta commented 4 years ago

Gostaria de hospedar todos os arquivos aqui: https://covid19br.s3-sa-east-1.amazonaws.com/index.html

misaelbr commented 4 years ago

Gostaria de hospedar todos os arquivos aqui: https://covid19br.s3-sa-east-1.amazonaws.com/index.html

Baixei, do histórico de versões do Drive, os arquivos desde o dia 14 até o do dia 21. Do dia 13 não tenho.

Só precisa ajustar a nomenclatura aí dos que estou compartilhando contigo.

https://drive.google.com/drive/folders/1Ztw1WwDXkkINFCpAt_EJFn09cYnMP6AQ?usp=sharing

horta commented 4 years ago

Obrigado, @misaelbr ! Eu mantive o nome original dos arquivos porque aquele hash que esta no nome deve ser alguma forma deles garantirem que o arquivo do dia nao foi alterado.

@turicas , nao seria melhor que armazenassemos todos os arquivos, de cada dia, de forma central?

Acho que seria interessante que juntassemos o maior numero desses arquivos. De preferencias todos os arquivos que foram disponibilizados ate hoje.

Atualizado: https://covid19br.s3-sa-east-1.amazonaws.com/index.html

misaelbr commented 4 years ago

@horta, ah sim.. =) no meu caso, eu uso o arquivo pra leitura dos dados diários. Aí quando sai a versão nova, regravo em cima do anterior, numa pasta sincronizada com o Drive(que mantém um histórico de versões num mesmo arquivo). Me evita alteração de script.

horta commented 4 years ago

Legal =)

Estou usando o seguinte script para fazer download do dia:

#/usr/bin bash

# Requires: [jq](https://stedolan.github.io/jq/)

url=$(curl 'https://xx9p7hp1p7.execute-api.us-east-1.amazonaws.com/prod/PortalGeral' \
    -H 'Accept: application/json, text/plain, */*' \
    -H 'Accept-Language: en-GB,en;q=0.5' \
    --compressed -H 'X-Parse-Application-Id: unAFkcaNDeXajurGB7LChj8SgQYS2ptm' \
    -H 'Origin: https://covid.saude.gov.br' -H 'Connection: keep-alive' \
    -H 'Referer: https://covid.saude.gov.br/' -H 'Pragma: no-cache' -H 'Cache-Control: no-cache' \
    -H 'TE: Trailers' -s | jq ".results[0].arquivo.url" | xargs)

(set -x; curl -O "$url")

endersonmaia commented 4 years ago

eu automatizei o download dos arquivos PDF e CSV (microdados) de Alagoas com um script rodando periodicamente no GitHub Actions e já faz commit no próprio repositório

@endersonmaia muito bom! Eu acho que podemos manter os arquivos em outro lugar (no storage do Brasil.IO, que é compatível com S3) e uma listagem com os links/datas. Mas para isso precisaríamos de um script que baixa esses dados (daí rodar o script automaticamente e subir no S3 podemos automatizar via GitHub ou de outra forma).

@turicas tem algum bucket específico para enviar isso ?

quais os dados que precisamos ter para fazer esse upload ?

misaelbr commented 4 years ago

Há um erro terrível nesses dados, que observei para o Estado de Roraima (precisa confirmar se aconteceu a mesma coisa para outros estados): a data que consta como registro é um dia após o efetivo registro na Secretraria de Saúde do Estado. Isso porque baseia-se na data do Boletim Epidemiológico, que sai no dia seguinte pela manhã, sendo que os dados foram informados no dia anterior.

Então, esse problema também ocorre no RS. O que tenho percebido é que nem sempre os estados enviam os dados para o MS em tempo hábil. MS publica as infos, com os casos referentes ao dia anterior. Por isso a discrepância.

fmplim commented 4 years ago

Oi @fmplim, tem como disponibilizar os arquivos? Gostaria de compara-los tambem.

@horta, quais arquivos, exatamente? Usei os datasets do MS e do Brasil.IO para a comparação.

horta commented 4 years ago

Os arquivos *_HIST_PAINEL_COVIDBR_26mai2020.xlsx. A ideia desse issue eh ter uma ideia se esses arquivos diarios sao confiaveis (nao mudam de formato, por ex.). Nao eh?

https://covid19br.s3-sa-east-1.amazonaws.com/index.html

Sou inexperiente nesse assunto, entao eh provavel que eu nao tenha entendido algo.

fmplim commented 4 years ago

Os arquivos *_HIST_PAINEL_COVIDBR_26mai2020.xlsx. A ideia desse issue eh ter uma ideia se esses arquivos diarios sao confiaveis (nao mudam de formato, por ex.). Nao eh?

https://covid19br.s3-sa-east-1.amazonaws.com/index.html

Sou inexperiente nesse assunto, entao eh provavel que eu nao tenha entendido algo.

A, sim, mas eu só tenho dos dias 15 e 23 de maio. Vi que esses vc já tem, certo, @horta ?

horta commented 4 years ago

Certo =)

horta commented 4 years ago

Adicionei interatividade para comparar os arquivos de dias diferentes. Os campos de fato mudam.

https://hub.gke.mybinder.org/user/horta-covid19-lnnwe0kp/notebooks/covid.saude.gov.br.ipynb

Cell -> Run all

horta commented 4 years ago

bug-02jun2020-manaquiri

Tem um erro na coluna populacaoTCU2019 para a cidade de Manaquiri, AM. Deve ter alguma relacao com o campo que mostro na imagem acima que encontrei no site do IBGE.

Vou (tentar) entrar em contato com o ministerio da saude para informa-los.

horta commented 4 years ago

Esse erro encontrei apenas para o arquivo de 02 de Junho ate o momento.

turicas commented 4 years ago

https://twitter.com/wlcota/status/1266863591032074242

fmplim commented 4 years ago

Adicionei interatividade para comparar os arquivos de dias diferentes. Os campos de fato mudam.

https://hub.gke.mybinder.org/user/horta-covid19-lnnwe0kp/notebooks/covid.saude.gov.br.ipynb

Cell -> Run all

@horta tá dando 404 essa url.

horta commented 4 years ago

https://mybinder.org/v2/gh/horta/covid19.git/master?filepath=covid.saude.gov.br.ipynb

Esse eh o link correto. Obrigado @fmplim !

endersonmaia commented 4 years ago

o MS tirou do ar para colocar uma versão 2.0, com menos informações agora

no link a seguir, o @flpms consegue capturar os dados que não estão visíveis no portal, mas ainda são acessíveis

https://github.com/flpms/covid-numeros-br

baixei a planilha completa, e os dados estavam lá com histórico por município

misaelbr commented 4 years ago

Já era. Reescreveram o JSON da resposta. Não vem mais o endereço da planilha gerada.

'results': [{'arquivo_srag': {'__type': 'File', 'name': '0f7290d807e00e3dfe98197d2586f1c2_arquivo_srag20200420.csv', 'url': 'https://mobileapps.saude.gov.br/esus-vepi/files/unAFkcaNDeXajurGB7LChj8SgQYS2ptm/0f7290d807e00e3dfe98197d2586f1c2_arquivo_srag20200420.csv'}, 'createdAt': '2020-03-25T16:28:25.593Z', 'dt_atualizacao': '08/06/2020 18:30', 'objectId': 'HXxFBK2BTx', 'texto_rodape': 'HIST_PAINEL_COVIDBR_08jun2020.xlsx', 'total_confirmado': '162.699', 'total_letalidade': '6,8%', 'total_obitos': '11.123', 'updatedAt': '2020-06-08T22:15:20.402Z', 'versao': 'v2.0'}]}

o MS tirou do ar para colocar uma versão 2.0, com menos informações agora

no link a seguir, o @flpms consegue capturar os dados que não estão visíveis no portal, mas ainda são acessíveis

https://github.com/flpms/covid-numeros-br

baixei a planilha completa, e os dados estavam lá com histórico por município

geamaro commented 4 years ago

Dados completos agora disponíveis via OpenDataSUS

George Amaro (pelo iPhone)

On 8 Jun 2020, at 19:19, Misael Bandeira Silveira notifications@github.com wrote:

Já era. Reescreveram o JSON da resposta. Não vem mais o endereço da planilha gerada.

'results': [{'arquivo_srag': {'__type': 'File', 'name': '0f7290d807e00e3dfe98197d2586f1c2_arquivo_srag20200420.csv', 'url': 'https://mobileapps.saude.gov.br/esus-vepi/files/unAFkcaNDeXajurGB7LChj8SgQYS2ptm/0f7290d807e00e3dfe98197d2586f1c2_arquivo_srag20200420.csv'}, 'createdAt': '2020-03-25T16:28:25.593Z', 'dt_atualizacao': '08/06/2020 18:30', 'objectId': 'HXxFBK2BTx', 'texto_rodape': 'HIST_PAINEL_COVIDBR_08jun2020.xlsx', 'total_confirmado': '162.699', 'total_letalidade': '6,8%', 'total_obitos': '11.123', 'updatedAt': '2020-06-08T22:15:20.402Z', 'versao': 'v2.0'}]}

o MS tirou do ar para colocar uma versão 2.0, com menos informações agora

no link a seguir, o @flpms consegue capturar os dados que não estão visíveis no portal, mas ainda são acessíveis

https://github.com/flpms/covid-numeros-br

baixei a planilha completa, e os dados estavam lá com histórico por município

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

endersonmaia commented 4 years ago

Dados completos agora disponíveis via OpenDataSUS

https://opendatasus.saude.gov.br/dataset/casos-nacionais

CSV por estado
ElasticSearch API (índice geral e por estado)

misaelbr commented 4 years ago

Dados completos agora disponíveis via OpenDataSUS

https://opendatasus.saude.gov.br/dataset/casos-nacionais

CSV por estado

ElasticSearch API (índice geral e por estado)

Só microdados. Não tem dados consolidados por data. Uma pena. A planilha diária era bem completinha.

endersonmaia commented 4 years ago

Dados completos agora disponíveis via OpenDataSUS

https://opendatasus.saude.gov.br/dataset/casos-nacionais

CSV por estado

ElasticSearch API (índice geral e por estado)

Só microdados. Não tem dados consolidados por data. Uma pena. A planilha diária era bem completinha.

baixa o CSV, importa no Excel, e faz um pivot, PRONTO!

misaelbr commented 4 years ago

Tá desatualizado. Conferi os do RS, que são os que me interessa, e tem uma defasagem enorme no número de óbitos notificados. Aparentemente nem todos os casos são lançados no sistema de vigilância.

Dados completos agora disponíveis via OpenDataSUS

https://opendatasus.saude.gov.br/dataset/casos-nacionais

CSV por estado

ElasticSearch API (índice geral e por estado)

Só microdados. Não tem dados consolidados por data. Uma pena. A planilha diária era bem completinha.

baixa o CSV, importa no Excel, e faz um pivot, PRONTO!

endersonmaia commented 4 years ago

Quando eu estava começando a acostumar com a ideia de transformar o XLSX em CSV e deixar o histórico registrado num repositório, o Ministério da Saúde chega e bagunça tudo novamente. ... Problema que não vai ter como descobrir a hash do HIST_PAINEL_COVIDBR_08jun2020.xlsx pra frente.

veja aqui : https://opendatasus.saude.gov.br/dataset/painel-da-covid-19

segundo a descrição, estes são os dados utilizados no painel do site https://covid.saude.gov.br

marceloalencar commented 4 years ago

9a8daec1f0d2382c1491985437c876d7_HIST_PAINEL_COVIDBR_07jun2020.xlsx

Esse arquivo também foi entregue ontem, também para registro:

O prefixo no nome das planilhas é MD5 do MD5 do arquivo n vezes? Não tive paciência pra fazer algum script e testar esta hipótese.

Problema que não vai ter como descobrir a hash do HIST_PAINEL_COVIDBR_08jun2020.xlsx pra frente.

Acredito que não se trata de um hash: FilesController.js

misaelbr commented 4 years ago

9a8daec1f0d2382c1491985437c876d7_HIST_PAINEL_COVIDBR_07jun2020.xlsx

Esse arquivo também foi entregue ontem, também para registro:

e4e6dfb57dcbb3c74c68cf89e816e805_HOJE_PAINEL_COVIDBR_07jun2020.xlsx

319d7e57d6216c0b168708e1c42b2025_HIST_PAINEL_COVIDBR_08jun2020.xlsx

O prefixo no nome das planilhas é MD5 do MD5 do arquivo n vezes? Não tive paciência pra fazer algum script e testar esta hipótese. Problema que não vai ter como descobrir a hash do HIST_PAINEL_COVIDBR_08jun2020.xlsx pra frente.

Acredito que não se trata de um hash: FilesController.js

É um hash, mas provavelmente de um hexa aleatório. O que complica. Se fosse um Hash MD5, gerando aqui e lá, daria a mesma coisa.

D166er commented 4 years ago

9a8daec1f0d2382c1491985437c876d7_HIST_PAINEL_COVIDBR_07jun2020.xlsx

Esse arquivo também foi entregue ontem, também para registro:

e4e6dfb57dcbb3c74c68cf89e816e805_HOJE_PAINEL_COVIDBR_07jun2020.xlsx

319d7e57d6216c0b168708e1c42b2025_HIST_PAINEL_COVIDBR_08jun2020.xlsx

O prefixo no nome das planilhas é MD5 do MD5 do arquivo n vezes? Não tive paciência pra fazer algum script e testar esta hipótese. Problema que não vai ter como descobrir a hash do HIST_PAINEL_COVIDBR_08jun2020.xlsx pra frente.

Acredito que não se trata de um hash: FilesController.js

É um hash, mas provavelmente de um hexa aleatório. O que complica. Se fosse um Hash MD5, gerando aqui e lá, daria a mesma coisa.

32 dígitos, acabou me induzindo a achar que era MD5. De qualquer forma, o Ministério da Saúde não disponibilizou a bendita planilha do dia 08 pelo https://opendatasus.saude.gov.br/dataset/painel-da-covid-19. Sacanagem. Tão forçando a gente a buscar os dados de cada secretaria estadual, ou que garimpemos os arquivos que contém SRAG também?

Por mais estranho que pareça, os dados para esses arquivos ainda estão aparecendo na api do site. Fiz um script no colab para obter os links (facilmente adaptavel para execução local)

https://colab.research.google.com/drive/179Qx2cVhTEBZt2DVLsrGZ7TYifiPkMHB?usp=sharing

marceloalencar commented 4 years ago

Por mais estranho que pareça, os dados para esses arquivos ainda estão aparecendo na api do site. Fiz um script no colab para obter os links (facilmente adaptavel para execução local)

https://colab.research.google.com/drive/179Qx2cVhTEBZt2DVLsrGZ7TYifiPkMHB?usp=sharing

Então voltaram a publicar, antes arquivo era null para o xlsx e só estava disponível o arquivo csv de srag.

marceloalencar commented 4 years ago

O site voltou com os dados e gráficos!

misaelbr commented 4 years ago

Por mais estranho que pareça, os dados para esses arquivos ainda estão aparecendo na api do site. Fiz um script no colab para obter os links (facilmente adaptavel para execução local) https://colab.research.google.com/drive/179Qx2cVhTEBZt2DVLsrGZ7TYifiPkMHB?usp=sharing

Ué, pois voltaram atrás e recolocaram o link no retorno do JSON. Ontem, às 22hrs, o retorno era:
{
  "results": [
    {
      "objectId": "HXxFBK2BTx",
      "total_confirmado": "162.699",
      "createdAt": "2020-03-25T16:28:25.593Z",
      "updatedAt": "2020-06-09T00:13:48.065Z",
      "total_obitos": "11.123",
      "versao": "v2.0",
      "dt_atualizacao": "08/06/2020 18:30",
      "total_letalidade": "6,8%",
      "arquivo_srag": {
        "__type": "File",
        "name": "0f7290d807e00e3dfe98197d2586f1c2_arquivo_srag20200420.csv",
        "url": "https://mobileapps.saude.gov.br/esus-vepi/files/unAFkcaNDeXajurGB7LChj8SgQYS2ptm/0f7290d807e00e3dfe98197d2586f1c2_arquivo_srag20200420.csv"
      },
      "texto_rodape": "HIST_PAINEL_COVIDBR_08jun2020.xlsx"
    }
  ]
}

STF determinou a divulgação completa dos dados, como era feito até o dia 04 de junho.

D166er commented 4 years ago

Por mais estranho que pareça, os dados para esses arquivos ainda estão aparecendo na api do site. Fiz um script no colab para obter os links (facilmente adaptavel para execução local) https://colab.research.google.com/drive/179Qx2cVhTEBZt2DVLsrGZ7TYifiPkMHB?usp=sharing

Ué, pois voltaram atrás e recolocaram o link no retorno do JSON. Ontem, às 22hrs, o retorno era:
{
  "results": [
    {
      "objectId": "HXxFBK2BTx",
      "total_confirmado": "162.699",
      "createdAt": "2020-03-25T16:28:25.593Z",
      "updatedAt": "2020-06-09T00:13:48.065Z",
      "total_obitos": "11.123",
      "versao": "v2.0",
      "dt_atualizacao": "08/06/2020 18:30",
      "total_letalidade": "6,8%",
      "arquivo_srag": {
        "__type": "File",
        "name": "0f7290d807e00e3dfe98197d2586f1c2_arquivo_srag20200420.csv",
        "url": "https://mobileapps.saude.gov.br/esus-vepi/files/unAFkcaNDeXajurGB7LChj8SgQYS2ptm/0f7290d807e00e3dfe98197d2586f1c2_arquivo_srag20200420.csv"
      },
      "texto_rodape": "HIST_PAINEL_COVIDBR_08jun2020.xlsx"
    }
  ]
}
STF determinou a divulgação completa dos dados, como era feito até o dia 04 de junho.

O STF podia mandar eles aprenderem a diferença entre csv e xlsx!!!!

misaelbr commented 4 years ago

Por mais estranho que pareça, os dados para esses arquivos ainda estão aparecendo na api do site. Fiz um script no colab para obter os links (facilmente adaptavel para execução local) https://colab.research.google.com/drive/179Qx2cVhTEBZt2DVLsrGZ7TYifiPkMHB?usp=sharing

Ué, pois voltaram atrás e recolocaram o link no retorno do JSON. Ontem, às 22hrs, o retorno era:
{
  "results": [
    {
      "objectId": "HXxFBK2BTx",
      "total_confirmado": "162.699",
      "createdAt": "2020-03-25T16:28:25.593Z",
      "updatedAt": "2020-06-09T00:13:48.065Z",
      "total_obitos": "11.123",
      "versao": "v2.0",
      "dt_atualizacao": "08/06/2020 18:30",
      "total_letalidade": "6,8%",
      "arquivo_srag": {
        "__type": "File",
        "name": "0f7290d807e00e3dfe98197d2586f1c2_arquivo_srag20200420.csv",
        "url": "https://mobileapps.saude.gov.br/esus-vepi/files/unAFkcaNDeXajurGB7LChj8SgQYS2ptm/0f7290d807e00e3dfe98197d2586f1c2_arquivo_srag20200420.csv"
      },
      "texto_rodape": "HIST_PAINEL_COVIDBR_08jun2020.xlsx"
    }
  ]
}
STF determinou a divulgação completa dos dados, como era feito até o dia 04 de junho.
O STF podia mandar eles aprenderem a diferença entre csv e xlsx!!!!

hahaha... Uso Pandas, então tanto faz. O importante são os dados... =D

D166er commented 4 years ago

O pandas é um canivete suíço para analise de dados (ainda estou aprendendo). mas até o pandas separa as duas coisas. pd.read_csv() e pd.read_excel()

milkway commented 4 years ago

O endereço não retorna mais o arquivo atualizado... alguma informação?

milkway commented 4 years ago

O endereço não retorna mais o arquivo atualizado... alguma informação?

Erro meu.. o endereço agora é "https://xx9p7hp1p7.execute-api.us-east-1.amazonaws.com/prod/PortalGeralApi"

jluizg commented 4 years ago

Boa noite pessoal.

Acho sensacional o trabalho de vocês, em especial o do Turicas, pela iniciativa. Então, parabéns a todos que se envolveram com este projeto.

Dito isso, vou me apresentar. Não sou programador, não sou analista de dados e nem sou da área. Sou apenas um curioso que gosta de "tentar" coisas nessa área quando sobra um tempo.

Meados de abril eu montei uma planilha Google Sheets para visualizar os dados da minha maneira. E com isso, treinar o uso da planilha para manipular os dados.

Nesta planilha eu comecei importando os dados totalizados de 15 ou 20 países através do covid19api.com. Depois comecei a pegar os números diários do Brasil baixando a planilha do Ministério da Saúde. Quando deu aquele vai e vem com relação à mudança do tipo de divulgação diária eu comecei a pesquisar fontes alternativas e descobri o brasil.io. Enquanto eu mudava a minha planilha destino para adaptar ao novo formato, o site do ministério voltou a publicar os dados completos. Daí eu deixei a opção de usar os "dados oficiais" ou Brasil.io.

Tudo isso está funcionando muito bem. Os dados do brasil.io eu pego com a função =IMPORTDATA("https://brasil.io/dataset/covid19/caso_full/?place_type=state&format=csv"). Faço isso uma vez por dia. (espero não estar fazendo nada que prejudique o fornecimento dos dados) . Os dados do Ministério da Saúde eu pego da planilha baixada todos os dias. Mas eu gostaria de deixar todos os processos online, não quero baixar no PC e depois copiar e colar na planilha online. Outro problema é o tamanho da planilha. Eu só trabalho com os dados ESTADUAIS, porque por município o volume é muito grande. Só pra comentar, apesar de já ter brincado com Python, não tenho conhecimento suficiente.

Já li toda a conversa de vocês, testei algumas coisas e não consegui resolver meu problema.

Como os comentários aqui estão desatualizados, minha esperança é de que tenha surgido algo novo. Existe uma forma de obter os dados do Ministério sem baixar a planilha?

Ou, caso alguém tenha conhecimento com Google Sheets/Scripts, saberia dizer se a minha ideia é viável. Quero criar um script que pegue a planilha diária no Ministério, salve na minha pasta do Google Drive e a partir daí o script extrairia somente as linhas referentes ao números daquele dia. Ou, melhor ainda, fizesse esta atualização diária sem salvar a nova planilha no meu drive.

Isso eu já estou tentando e, quando tiver algum progresso ou descubra que não é possível, comento aqui.

Agradeço qualquer ajuda.

Bom trabalho a todos.

Abraço

José Luiz

jluizg commented 4 years ago

Olá José, Eu criei um repositório utilizando as automações do próprio Github para ter a planilha disponibilizada do Ministério da Saúde automaticamente convertida em CSV. Segue o link do repositório: https://github.com/4llan/covid19-br-csv E segue o link que sempre terá a última atualização dos dados em formato CSV: https://github.com/4llan/covid19-br-csv/raw/master/covid19-br.csv Espero que os links lhe sejam úteis, ou pelo menos a informação de você poder automatizar o processo sem ter que utilizar uma máquina física para tanto. Abraço, Allan … On Fri, Sep 18, 2020 at 10:02 PM jluizg @.***> wrote: Boa noite pessoal. Acho sensacional o trabalho de vocês, em especial o do Turicas, pela iniciativa. Então, parabéns a todos que se envolveram com este projeto. Dito isso, vou me apresentar. Não sou programador, não sou analista de dados e nem sou da área. Sou apenas um curioso que gosta de "tentar" coisas nessa área quando sobra um tempo. Meados de abril eu montei uma planilha Google Sheets para visualizar os dados da minha maneira. E com isso, treinar o uso da planilha para manipular os dados. Nesta planilha eu comecei importando os dados totalizados de 15 ou 20 países através do covid19api.com. Depois comecei a pegar os números diários do Brasil baixando a planilha do Ministério da Saúde. Quando deu aquele vai e vem com relação à mudança do tipo de divulgação diária eu comecei a pesquisar fontes alternativas e descobri o brasil.io. Enquanto eu mudava a minha planilha destino para adaptar ao novo formato, o site do ministério voltou a publicar os dados completos. Daí eu deixei a opção de usar os "dados oficiais" ou Brasil.io. Tudo isso está funcionando muito bem. Os dados do brasil.io eu pego com a função =IMPORTDATA(" https://brasil.io/dataset/covid19/caso_full/?place_type=state&format=csv"). Faço isso uma vez por dia. (espero não estar fazendo nada que prejudique o fornecimento dos dados) . Os dados do Ministério da Saúde eu pego da planilha baixada todos os dias. Mas eu gostaria de deixar todos os processos online, não quero baixar no PC e depois copiar e colar na planilha online. Outro problema é o tamanho da planilha. Eu só trabalho com os dados ESTADUAIS, porque por município o volume é muito grande. Só pra comentar, apesar de já ter brincado com Python, não tenho conhecimento suficiente. Já li toda a conversa de vocês, testei algumas coisas e não consegui resolver meu problema. Como os comentários aqui estão desatualizados, minha esperança é de que tenha surgido algo novo. Existe uma forma de obter os dados do Ministério sem baixar a planilha? Ou, caso alguém tenha conhecimento com Google Sheets/Scripts, saberia dizer se a minha ideia é viável. Quero criar um script que pegue a planilha diária no Ministério, salve na minha pasta do Google Drive e a partir daí o script extrairia somente as linhas referentes ao números daquele dia. Ou, melhor ainda, fizesse esta atualização diária sem salvar a nova planilha no meu drive. Isso eu já estou tentando e, quando tiver algum progresso ou descubra que não é possível, comento aqui. Agradeço qualquer ajuda. Bom trabalho a todos. Abraço José Luiz — You are receiving this because you commented. Reply to this email directly, view it on GitHub <#140 (comment)>, or unsubscribe https://github.com/notifications/unsubscribe-auth/AAV3RZKKPWCA5IEAOKSEZXDSGP7JDANCNFSM4NF4CKYQ .

Opa! Valeu. Amanhã eu vou testar.

Mas, já abri o link e vi o conteúdo do .CSV . Acredito que vai funcionar perfeitamente. Apenas vou criar critérios para pegar apenas os dados por UF, para não trazer o conteúdo completo. E acho que também vou criar um menu pra pegar uma cidade específica. Fiquei animado. Assim que testar eu deixo um comentário.

Muito obrigado.

jluizg commented 4 years ago

@4llan eu uso o Google Sheets/Scripts porque, pra mim, é o contato mais fácil com a programação. Comecei a usar porque estou muito envolvido com criptomoedas e consigo criar alguns controles e tirar relatórios dali.

Mas agradeço muito a dica do Data Studio. Já tinha visto algumas publicações a respeito mas não tinha buscado informações. Agora, com a sua dica, vou começar a estudar. Acaba sendo um incentivo e, com algo concreto (dados COVID), fica bem mais fácil testar.

Obrigado

Abraço

turicas / covid19-br

Estudar dados consolidados do Ministério da Saúde #140