radar-parlamentar / radar

Estamos de mudança para o GitLab: https://gitlab.com/radar-parlamentar/radar.
http://radarparlamentar.polignu.org
84 stars 44 forks source link

Verificar dados - Partidos e Parlamentares duplicados #260

Closed diraol closed 8 years ago

diraol commented 9 years ago

Tem algo errado acontecendo. Se entrarem em (http://radarparlamentar.polignu.org/analises/analise/cdep/) e forem até 2013-2014, será possível ver que o PTdoB aparece duas vezes na legenda de partidos, à direita, e me falaram que pelo menos o Jean Wyllys aparece duas vezes no gráfico.

leonardofl commented 9 years ago

Copio abaixo outro relato enviado pelo Tiago Oliveira Baldasso, com alguns problemas que ele encontrou nos gráficos do Radar.

"Olá amigos, gostei muito do projeto do Radar e acho uma ferramenta muito útil, no entanto, ao dar uma pesquisada encontrei alguns erros que cito a seguir:

-No gráfico de votação de senadores de 2011-12 o deputado Paulo Paim (PT-RS) aparece "plotado" duas vezes.

-Em alguns gráficos recentes há o partido "PTS" que sequer existe mais.

Grande abraço e continuem com o ótimo site."

(movido de #253)

leonardofl commented 9 years ago

Reparei esses dias tb q o número de parlamentares por partido está muito grande em alguns períodos.

Minha hipótese é: o importador da cdep abre várias threads para importar os dados. Talvez a parte que cheque se um parlamentar já exista (antes de criar um novo) não esteja devidamente sincronziada e por isso o mesmo parlamentar acaba sendo inserido mais de uma vez.

Outra hipótese seria grafias ligeiramente diferentes no nome do parlamentar dependendo da proposição. Mas pelos relatos e pelo oq observei, não parece ser esse o caso.

diraol commented 9 years ago

O pessoal da FGA encontrou alguns outros erros também.

Acho que precisamos fazer uma revisão nos dados, entender o problema, e também implementar algum tipo de "verificação/teste" dos dados importados. Não pensei numa rotina de como fazer isso ainda, mas acho que é um "ToDo".

@paulohtfs foi você quem identificou os problemas com os dados ?

paulohtfs commented 9 years ago

Foi toda a equipe praticamente. Existem vários parlamentares duplicados (alguns identicos e outros direfentes apenas por um acento). Em partidos tem o PTdoB q está duplicado e o idPK deles são diferentes, mas aparentemente existe método pra ñ deixar duplicar qnd eles são inseridos no banco. Tbm tem um problema no banco quanto a issue #256, a @vannessasoares pode falar melhor disso pq ela tentou resolver.

Nos estamos usando o banco disponivel em http://radarparlamentar.polignu.org/static/db-dump/radar.sql

diraol commented 9 years ago

@paulohtfs, esse dump melhorou a situação de vocês? Conseguiram resolver alguns dos problemas/dúvidas que vocês haviam colocado para mim aquele dia?

paulohtfs commented 9 years ago

O dump q vc passou pra nos naquele dia, so olhando por cima, está praticamente a msm coisa do anterior. Mas agente pode olhar melhor dps. A maioria das dúvidas foram esclarecidas. Obrigado btw :)

Nas últimas semanas agente tentou matar as issues q não conseguimos concluir nas sprints anteriores, mas muitas delas ñ foram feitas. A cloud tag foi concluida e vamos mandar amanhã. A timeline vai ficar de lado, pq vai mudar muita coisa e pensamos q ñ vai dar tempo. Eu vou tentar fazer dps do tempo da disciplina, junto com a parte do twitter-bootstrap q eu falei pra vc. Definimos fazer issues de bugs e correções nessas proximas sprints. Temos mais 3 semanas de disciplina, então se quiser alguma coisa específica, pode mandar.

Em 7 de junho de 2015 22:33, Diego Rabatone Oliveira < notifications@github.com> escreveu:

@paulohtfs https://github.com/paulohtfs, esse dump melhorou a situação de vocês? Conseguiram resolver alguns dos problemas/dúvidas que vocês haviam colocado para mim aquele dia?

— Reply to this email directly or view it on GitHub https://github.com/radar-parlamentar/radar/issues/260#issuecomment-109821475 .


Atenciosamente, Paulo Tada.

Contato: paulohtfs@gmail.com

leonardofl commented 8 years ago

Resolvido 6a6722c320964a52690bf0450d1488e224cfe6fe (por enquanto ainda na branch sem-legislatura).