Repositorio com arquivos processados da CPI da COVID para facilitar analise
No site do senado é possivel encontrar a lista de todos os documentos coletados pela CPI da COVID.
A tabela no site possui a seguinte estrutura:
No | Arquivos | Data de recebimento | Remetente | Origem | Descrição | Caixa | Em Resposta |
---|---|---|---|---|---|---|---|
1 | Link1 | ... | ... | ... | ... | ... | ... |
2 | Link2/link3 | ... | ... | ... | ... | ... | ... |
Esses links levam ao download de arquivos PDF com os documentos em questão.
Nesse repositorio você podera encontrar a versão txt desses arquivos. O nome do arquivo nesse repositorio é formado por <No do documento>_<numero do link>
.
Por exemplo:
link1 = 1_1 porque ele é relativo ao arquivo No 1, e é o primeiro link.
link2 = 2_1 porque ele é relativo ao arquivo No 2, e é o primeiro link dessa linha.
link3 = 2_2 porque ele é relativo ao arquivo No 2, e é o segundo link da linha.
A versão texto de todos os documentos está na pasta database/txts/.
Exemplos:
Arquivo No 1, primeiro link: 1_1
Arquivo No 4, quarto link: 3_4
Nota 1: Nem todos os arquivos foram convertidos ainda
Nota 2: A conversão usa reconhecimento de imagem e pode ficar bem ruim as vezes, gerando erros ortograficos ou palavras sem nexo algum.
Os scripts funcionam na seguinte sequencia:
extract_rows.py
: Vai no site do senado e extrai as informações de cada linha da tabela. Todos os dados são salvos em database/rows
.extract_headers.py
: Para cada link em cada linha, esse script pega metadados do arquivo (tamanho, tipo) que vão ser uteis depois. Esses dados são salvos em database/headers
.download_pdfs.py
: Baixa todos os PDFs descritos em database/headers
e salva em database/pdfs
.convert_pdf_to_jpg.py
: Converte todos os PDFs em database/pdfs
para imagens em database/jpgs
.convert_jpg_to_txt.py
: Converte todos as imagens em database/jpgs
para texto em database/txt
.Por motivos de performance, apenas as pastas database/rows
, database/headers
e database/txts
sao salvas nesse repositorio.
TODO: