Closed laramesquita closed 7 years ago
Como se pode ver no arquivo que estamos utilizando, as coligações estão com essas informações. Podem me enviar o arquivo corrigido?
Caros, atualizei o novo arquivo tratado no banco de dados 3(consulta legenda) do cepesp.io
Podem verificar se está tudo ok? Com a confirmação, eu recalculo o votacao_Secao
Construí hoje os testes. Para a maioria dos cargos e ufs deste ano, os dados do número de coligações por estados estavam batendo.
No entanto, havia algumas diferenças. Só tive tempo até o momento de analisar os erros na eleição para governadores. Encontrei os seguintes problemas:
Atribui estes erros ao TSE, até o momento não encontrei problema nas composições das coligações.
Qual algoritmo podemos usar para retirar esses duplicados? Eu diria para analisarmos caso a caso. Da mesma forma que foi feito com os candidatos.
Abraao, acho que o primeiro passo é desconsiderar o nome das coligações.
Não entendi direito a repetição dos partidos, vou trabalhar um pouco nos dados.
Lara Mesquita Cientista Política http://lattes.cnpq.br/7180517519005425
Em 6 de set de 2017, às 13:32, Abraao Barros Lacerda notifications@github.com escreveu:
Qual algoritmo podemos usar para retirar esses duplicados? Eu diria para analisarmos caso a caso. Da mesma forma que foi feito com os candidatos.
— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.
@laramesquita
Eu fiz uma análise dos dados duplicados e eles foram nos seguintes estados (eleição governador):
-- As demais diferenças que encontrei para eleição de governador em 2010 foram nos estados:
Nas divergências vale o que está no TSE.
Lara Mesquita Cientista Política http://lattes.cnpq.br/7180517519005425
Em 6 de setembro de 2017 14:37, atrfisch notifications@github.com escreveu:
@laramesquita https://github.com/laramesquita
Eu fiz uma análise dos dados duplicados e eles foram nos seguintes estados (eleição governador):
- AP: no arquivo do TSE, os partidos estão duplicados. Até onde eu analisei, está tudo exatamente igual, seria excluir as repetições.
- ES: duplicação por conta do nome de uma coligação (Coligação do PSDB)
-- As demais diferenças que encontrei para eleição de governador em 2010 foram nos estados:
- AC
- GO
- RN Mas nesses casos, a base do cepespdata estava com partidos isolados a mais que a tabela de controle enviada pela Lara. O Cepespdata está de acordo com o tse
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/Cepesp-Fgv/tse-dados/issues/54#issuecomment-327558569, or mute the thread https://github.com/notifications/unsubscribe-auth/Abx4i1qapBW7n05VaObqpGeiTbYBXVDXks5sfthOgaJpZM4O5UHG .
Caros,
pelo que entendi em 2010 AC, GO e RN estão ok (batem com o TSE).
O ES é simples, pois é duplicação de nomes.
O arquivo mais problemático é o do AP.
Identifiquei no banco de candidatos que o candidato do PTB aparece duplica, e uma das situações dele é cancelado, mas há mais repetições do que essa no banco de legendas. Me parece que todas as repetições são relacionadas a coligação encabeçada pelo PTB, que aperece 4 vezes com 4 identificadores diferentes.
Pelo banco de candidatos o identificador da coligação que vale é: 30000000023
Os demais identificadores da coligação: 30000000005; 30000000021; 30000000022 devem ser desconsiderados.
Acho que com esse controle conseguiremos resolver o problema do Amapá em 2010.
Abraços, Lara.
Lara Mesquita Cientista Política http://lattes.cnpq.br/7180517519005425
Em 6 de setembro de 2017 14:37, atrfisch notifications@github.com escreveu:
@laramesquita https://github.com/laramesquita
Eu fiz uma análise dos dados duplicados e eles foram nos seguintes estados (eleição governador):
- AP: no arquivo do TSE, os partidos estão duplicados. Até onde eu analisei, está tudo exatamente igual, seria excluir as repetições.
- ES: duplicação por conta do nome de uma coligação (Coligação do PSDB)
-- As demais diferenças que encontrei para eleição de governador em 2010 foram nos estados:
- AC
- GO
- RN Mas nesses casos, a base do cepespdata estava com partidos isolados a mais que a tabela de controle enviada pela Lara. O Cepespdata está de acordo com o tse
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/Cepesp-Fgv/tse-dados/issues/54#issuecomment-327558569, or mute the thread https://github.com/notifications/unsubscribe-auth/Abx4i1qapBW7n05VaObqpGeiTbYBXVDXks5sfthOgaJpZM4O5UHG .
Caros,
Para facilitar: no ES a coligação do PSDB aparece com dois identificadores: 80000000014 e 80000000002. O código que tem correspondência com o aquivo de candidatos é o 80000000014, então é esse o código que devemos manter.
Lara Mesquita Cientista Política http://lattes.cnpq.br/7180517519005425
Em 8 de setembro de 2017 13:47, Lara Mesquita laramesquita@gmail.com escreveu:
Caros,
pelo que entendi em 2010 AC, GO e RN estão ok (batem com o TSE).
O ES é simples, pois é duplicação de nomes.
O arquivo mais problemático é o do AP.
Identifiquei no banco de candidatos que o candidato do PTB aparece duplica, e uma das situações dele é cancelado, mas há mais repetições do que essa no banco de legendas. Me parece que todas as repetições são relacionadas a coligação encabeçada pelo PTB, que aperece 4 vezes com 4 identificadores diferentes.
Pelo banco de candidatos o identificador da coligação que vale é: 30000000023
Os demais identificadores da coligação: 30000000005; 30000000021; 30000000022 devem ser desconsiderados.
Acho que com esse controle conseguiremos resolver o problema do Amapá em 2010.
Abraços, Lara.
Lara Mesquita Cientista Política http://lattes.cnpq.br/7180517519005425
Em 6 de setembro de 2017 14:37, atrfisch notifications@github.com escreveu:
@laramesquita https://github.com/laramesquita
Eu fiz uma análise dos dados duplicados e eles foram nos seguintes estados (eleição governador):
- AP: no arquivo do TSE, os partidos estão duplicados. Até onde eu analisei, está tudo exatamente igual, seria excluir as repetições.
- ES: duplicação por conta do nome de uma coligação (Coligação do PSDB)
-- As demais diferenças que encontrei para eleição de governador em 2010 foram nos estados:
- AC
- GO
- RN Mas nesses casos, a base do cepespdata estava com partidos isolados a mais que a tabela de controle enviada pela Lara. O Cepespdata está de acordo com o tse
— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/Cepesp-Fgv/tse-dados/issues/54#issuecomment-327558569, or mute the thread https://github.com/notifications/unsubscribe-auth/Abx4i1qapBW7n05VaObqpGeiTbYBXVDXks5sfthOgaJpZM4O5UHG .
Caros,
não sei como fazer essa escolha em algoritmo. Acho melhor vocês gerarem um arquivo com as linhas que tem que excluir, da mesma que foi feita no candidato.
Ou podemos agrupar as linhas repetidas da mesma forma do coligação. Exemplo: linha 1: LULA linha 2: LULA SILVA
linha composta: LULA / LULA SILVA
Assim, não prejudicamos o join e não perdemos informações.
O que vc acham?
Abraao, pelo que entendo deveríamos criar uma linha de comando que exclui as linhas com determinados sequenciais de coligação. Essa lista que indica UF/Cargo/Sequencial coligação nós te informamos.
Outra dúvida que eu fiquei: no repositório do TSE, para 2010, consta a informação do sequencial da coliação, mas no cepespdata estamos sem o sequencial (retorno -1). Você sabe me explicar porque?
acredito que quando construi o indice acabei tirando essa informação. Vou verificar