Atualizar informação de coligações para 2010.

laramesquita commented 7 years ago

Atualizar informação de coligações para 2010. P/ governador e senador retorna #NE#; P/ Dep. Federal, Estadual e Distrital retorna os partidos individualmente, e não a composição das coligações; O arquivo do TSE segue a mesma estrutura (mesmo número, sequencia e conteúdo de colunas, separador ";") dos outros anos. O TSE não informa a composição da coligação no campo “COMPOSICAO_COLIGACAO” (17ª coluna). Informa #NE#. Já passamos arquivo complementar, mas como cada partido da coligação é uma linha, e há o código “SEQUENCIAL_COLIGACAO” que se repete para todos os partidos de uma mesma coligação (lembrar que esse código se repete por cargo e uf), é possível recuperar a informação da composição da coligação. Não entendi porque para os deputados retorna apenas os partidos isolados

abraaobarros commented 7 years ago

Como se pode ver no arquivo que estamos utilizando, as coligações estão com essas informações. Podem me enviar o arquivo corrigido?

legendas_2010.csv.zip

abraaobarros commented 7 years ago

Caros, atualizei o novo arquivo tratado no banco de dados 3(consulta legenda) do cepesp.io

Podem verificar se está tudo ok? Com a confirmação, eu recalculo o votacao_Secao

atrfisch commented 7 years ago

Construí hoje os testes. Para a maioria dos cargos e ufs deste ano, os dados do número de coligações por estados estavam batendo.

No entanto, havia algumas diferenças. Só tive tempo até o momento de analisar os erros na eleição para governadores. Encontrei os seguintes problemas:

duplicação no ES por conta de nome da coligação diferente
duplicação de informações de partidos

Atribui estes erros ao TSE, até o momento não encontrei problema nas composições das coligações.

abraaobarros commented 7 years ago

Qual algoritmo podemos usar para retirar esses duplicados? Eu diria para analisarmos caso a caso. Da mesma forma que foi feito com os candidatos.

laramesquita commented 7 years ago

Abraao, acho que o primeiro passo é desconsiderar o nome das coligações.

Não entendi direito a repetição dos partidos, vou trabalhar um pouco nos dados.

Lara Mesquita Cientista Política http://lattes.cnpq.br/7180517519005425

Em 6 de set de 2017, às 13:32, Abraao Barros Lacerda notifications@github.com escreveu:

Qual algoritmo podemos usar para retirar esses duplicados? Eu diria para analisarmos caso a caso. Da mesma forma que foi feito com os candidatos.

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.

atrfisch commented 7 years ago

@laramesquita

Eu fiz uma análise dos dados duplicados e eles foram nos seguintes estados (eleição governador):

AP: no arquivo do TSE, os partidos estão duplicados. Até onde eu analisei, está tudo exatamente igual, seria excluir as repetições.
ES: duplicação por conta do nome de uma coligação (Coligação do PSDB)

-- As demais diferenças que encontrei para eleição de governador em 2010 foram nos estados:

AC
GO
RN Mas nesses casos, a base do cepespdata estava com partidos isolados a mais que a tabela de controle enviada pela Lara. O Cepespdata está de acordo com o tse

laramesquita commented 7 years ago

Nas divergências vale o que está no TSE.

Lara Mesquita Cientista Política http://lattes.cnpq.br/7180517519005425

Em 6 de setembro de 2017 14:37, atrfisch notifications@github.com escreveu:

@laramesquita https://github.com/laramesquita

Eu fiz uma análise dos dados duplicados e eles foram nos seguintes estados (eleição governador):

AP: no arquivo do TSE, os partidos estão duplicados. Até onde eu analisei, está tudo exatamente igual, seria excluir as repetições.

ES: duplicação por conta do nome de uma coligação (Coligação do PSDB)

-- As demais diferenças que encontrei para eleição de governador em 2010 foram nos estados:

AC

GO

RN Mas nesses casos, a base do cepespdata estava com partidos isolados a mais que a tabela de controle enviada pela Lara. O Cepespdata está de acordo com o tse

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/Cepesp-Fgv/tse-dados/issues/54#issuecomment-327558569, or mute the thread https://github.com/notifications/unsubscribe-auth/Abx4i1qapBW7n05VaObqpGeiTbYBXVDXks5sfthOgaJpZM4O5UHG .

laramesquita commented 7 years ago

Caros,

pelo que entendi em 2010 AC, GO e RN estão ok (batem com o TSE).

O ES é simples, pois é duplicação de nomes.

O arquivo mais problemático é o do AP.

Identifiquei no banco de candidatos que o candidato do PTB aparece duplica, e uma das situações dele é cancelado, mas há mais repetições do que essa no banco de legendas. Me parece que todas as repetições são relacionadas a coligação encabeçada pelo PTB, que aperece 4 vezes com 4 identificadores diferentes.

Pelo banco de candidatos o identificador da coligação que vale é: 30000000023

Os demais identificadores da coligação: 30000000005; 30000000021; 30000000022 devem ser desconsiderados.

Acho que com esse controle conseguiremos resolver o problema do Amapá em 2010.

Abraços, Lara.

Lara Mesquita Cientista Política http://lattes.cnpq.br/7180517519005425

Em 6 de setembro de 2017 14:37, atrfisch notifications@github.com escreveu:

@laramesquita https://github.com/laramesquita

Eu fiz uma análise dos dados duplicados e eles foram nos seguintes estados (eleição governador):

AP: no arquivo do TSE, os partidos estão duplicados. Até onde eu analisei, está tudo exatamente igual, seria excluir as repetições.

ES: duplicação por conta do nome de uma coligação (Coligação do PSDB)

-- As demais diferenças que encontrei para eleição de governador em 2010 foram nos estados:

AC

GO

RN Mas nesses casos, a base do cepespdata estava com partidos isolados a mais que a tabela de controle enviada pela Lara. O Cepespdata está de acordo com o tse

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/Cepesp-Fgv/tse-dados/issues/54#issuecomment-327558569, or mute the thread https://github.com/notifications/unsubscribe-auth/Abx4i1qapBW7n05VaObqpGeiTbYBXVDXks5sfthOgaJpZM4O5UHG .

laramesquita commented 7 years ago

Caros,

Para facilitar: no ES a coligação do PSDB aparece com dois identificadores: 80000000014 e 80000000002. O código que tem correspondência com o aquivo de candidatos é o 80000000014, então é esse o código que devemos manter.

Lara Mesquita Cientista Política http://lattes.cnpq.br/7180517519005425

Em 8 de setembro de 2017 13:47, Lara Mesquita laramesquita@gmail.com escreveu:

Caros,

pelo que entendi em 2010 AC, GO e RN estão ok (batem com o TSE).

O ES é simples, pois é duplicação de nomes.

O arquivo mais problemático é o do AP.

Identifiquei no banco de candidatos que o candidato do PTB aparece duplica, e uma das situações dele é cancelado, mas há mais repetições do que essa no banco de legendas. Me parece que todas as repetições são relacionadas a coligação encabeçada pelo PTB, que aperece 4 vezes com 4 identificadores diferentes.

Pelo banco de candidatos o identificador da coligação que vale é: 30000000023

Os demais identificadores da coligação: 30000000005; 30000000021; 30000000022 devem ser desconsiderados.

Acho que com esse controle conseguiremos resolver o problema do Amapá em 2010.

Abraços, Lara.

Lara Mesquita Cientista Política http://lattes.cnpq.br/7180517519005425

Em 6 de setembro de 2017 14:37, atrfisch notifications@github.com escreveu:

@laramesquita https://github.com/laramesquita

Eu fiz uma análise dos dados duplicados e eles foram nos seguintes estados (eleição governador):

AP: no arquivo do TSE, os partidos estão duplicados. Até onde eu analisei, está tudo exatamente igual, seria excluir as repetições.

ES: duplicação por conta do nome de uma coligação (Coligação do PSDB)

-- As demais diferenças que encontrei para eleição de governador em 2010 foram nos estados:

AC

GO

RN Mas nesses casos, a base do cepespdata estava com partidos isolados a mais que a tabela de controle enviada pela Lara. O Cepespdata está de acordo com o tse

— You are receiving this because you were mentioned. Reply to this email directly, view it on GitHub https://github.com/Cepesp-Fgv/tse-dados/issues/54#issuecomment-327558569, or mute the thread https://github.com/notifications/unsubscribe-auth/Abx4i1qapBW7n05VaObqpGeiTbYBXVDXks5sfthOgaJpZM4O5UHG .

abraaobarros commented 7 years ago

Caros,

não sei como fazer essa escolha em algoritmo. Acho melhor vocês gerarem um arquivo com as linhas que tem que excluir, da mesma que foi feita no candidato.

Ou podemos agrupar as linhas repetidas da mesma forma do coligação. Exemplo: linha 1: LULA linha 2: LULA SILVA

linha composta: LULA / LULA SILVA

Assim, não prejudicamos o join e não perdemos informações.

O que vc acham?

laramesquita commented 7 years ago

Abraao, pelo que entendo deveríamos criar uma linha de comando que exclui as linhas com determinados sequenciais de coligação. Essa lista que indica UF/Cargo/Sequencial coligação nós te informamos.

Outra dúvida que eu fiquei: no repositório do TSE, para 2010, consta a informação do sequencial da coliação, mas no cepespdata estamos sem o sequencial (retorno -1). Você sabe me explicar porque?

Cepesp-Fgv commented 7 years ago

acredito que quando construi o indice acabei tirando essa informação. Vou verificar

Cepesp-Fgv / tse-dados

Atualizar informação de coligações para 2010. #54