radar-parlamentar / radar

Estamos de mudança para o GitLab: https://gitlab.com/radar-parlamentar/radar.
http://radarparlamentar.polignu.org
84 stars 44 forks source link

IDs que existem da Câmara dos Deputados #59

Closed leonardofl closed 11 years ago

leonardofl commented 11 years ago

Preencher o arquivo https://github.com/leonardofl/radar_parlamentar/blob/master/radar_parlamentar/importadores/dados/votadas.txt com todos os IDs de proposições que existem na Câmara dos Deputados e que possuem pelo menos uma votação.

leonardofl commented 11 years ago

Gerei nova lista de IDs que existem: https://github.com/leonardofl/radar_parlamentar/blob/master/radar_parlamentar/importadores/dados/ids_que_existem.txt

Agora é preciso filtrar esses IDs pra ver quais correspondem a proposições com votações. Para isso completar o método find_props_com_votacoes em ProposicoesFinder (https://github.com/leonardofl/radar_parlamentar/blob/master/radar_parlamentar/importadores/camara.py).

leonardofl commented 11 years ago

Eu fiz, mas a lista gerada possui apenas 46 proposições: https://github.com/leonardofl/radar_parlamentar/blob/master/radar_parlamentar/importadores/dados/votadas.txt

O banco que o Saulo fizera há tempos, possuia 339! https://github.com/leonardofl/radar_parlamentar/blob/master/resultados/camara.db

saulotrento commented 11 years ago

Leo,

Fiz uma análise que indica que o motivo de sua lista ser menor pode ser que o servidor da câmara estava de mau humor no dia que você fez as requisições.

MÉTODO:

Comparei um trecho do arquivo ids_que_existem.txt que eu fiz há tempos com o mesmo trecho no arquivo ids_que_existem.txt que você gerou recentemente. Trata-se do primeiro trecho em que os dois arquivos diferem. Veja como há algumas proposições faltando a partir da 13748, e depois retoma na 13762:

ARQUIVO ANTIGO | ARQUIVO RECENTE ... 13740: PDC 374/1999 13740: PDC 374/1999 13741: PDC 375/1997 13741: PDC 375/1997 13742: PDC 375/1999 13742: PDC 375/1999 13743: PDC 376/1997 13743: PDC 376/1997 13744: PDC 378/1999 13744: PDC 378/1999 13745: PDC 379/1999 13745: PDC 379/1999 13746: PDC 380/1997 13746: PDC 380/1997 13747: PDC 380/1999 13747: PDC 380/1999 13748: PDC 381/1993 13749: PDC 381/1999 13750: PDC 382/1999 13751: PDC 383/1993 13752: PDC 384/1997 13753: PDC 384/1999 13754: PDC 385/1999 13755: PDC 386/1999 13756: PDC 388/2000 13757: PDC 389/2000 13757: PDC 389/2000 13758: PDC 391/2000 13759: PDC 392/2000 13760: PDC 393/2000 13761: PDC 394/2000 13762: PDC 395/1997 13762: PDC 395/1997 13763: PDC 395/2000 13763: PDC 395/2000 13764: PDC 396/2000 13764: PDC 396/2000 13765: PDC 397/2000 13765: PDC 397/2000 13766: PDC 398/2000 13766: PDC 398/2000 ...

O arquivo antigo foi criado com um script que eu fiz por volta de abril, e o novo com uma função que você modernizou a partir do meu script. Então eu rodei este trecho com meu script antigo, e obtive todas as proposições, sem buracos. Isso significa que as proposições estavam lá em Abril, e ainda estão lá Hoje, então é provável que elas estivessem lá quando você pediu, Há Um Mês!

Então rodei a mesma coisa com a função nova e modernizada e... também não houveram buracos. Ou seja, o código atual funciona. O webservice da Câmara é que parece ser instável mesmo.

saulotrento commented 11 years ago

Para gerar ids_que_existem.txt, você requisitou sequencialmente, ou separou em intervalos e requisitou "em paralelo"? Quanto tempo demorou?

Da primeira vez acho que separei em 3 ou 4 partes e acho que levou mais de um dia.

Estou pensando em rodar novamente, para fazermos um "merge" das listas e termos os dados mais completos.

leonardofl commented 11 years ago

Eu fiz tudo em sequencial... nos últimos tempos fiz algumas otimizações pra deixar a coisa um pouco mais rápida, mas eu não paralelizei nada. não lembro quanto tempo levei, mas foi algumas horas, menos de um dia... se vc poder rodar novamente e atualizar o arquivo ids_que_existem.txt agradeço muito =]

leonardofl commented 11 years ago

Fazer antes o #76

leonardofl commented 11 years ago

Feito pelo Diego: 54ef714180718a42ba46b5468c4dea872f84cdf4