CamaraDosDeputados / dados-abertos

Repositório do serviço de Dados Abertos da Câmara. Consulte as "Issues" para atendimento a dúvidas e sugestões.
http://dadosabertos.camara.leg.br
196 stars 13 forks source link

Inconsistências no endpoint deputados/{id}/discursos #190

Open lucaspetry opened 5 years ago

lucaspetry commented 5 years ago

(1) Estou usando o endpoint de discursos da API e verifiquei que os dados não estão vindo ordenados pelo campo informado na requisição. Por exemplo, utilizando este link https://dadosabertos.camara.leg.br/api/v2/deputados/74847/discursos?dataInicio=2015-01-01&dataFim=2018-12-31&ordenarPor=dataHoraInicio&ordem=ASC, o primeiro discurso retornado é de 2017 mas o segundo é de 2016 (verifiquei usando os links para os eventos disponível no discurso).

(2) Outra coisa é que as datas/horas de início e fim estão nulas, assim como não há URL do áudio nem do vídeo. Seria possível disponibilizar estes dados? Talvez seja por isso que o problema (1) acontece. (3) Não há também nenhum identificador dos discursos. O identificador do evento + identificador do deputado podem identificar um discurso? Ou seja, cada deputado pode fazer somente um discurso em cada evento?

Obrigado!

wgator commented 5 years ago

79

EquipeDadosAbertosCD commented 5 years ago

Olá, Lucas!

Obrigado pelo contato e pelo interesse no Dados Abertos! E desculpe a demora na resposta...

Vamos verificar o problema da ordenação. É possível que tenha, sim, alguma relação com problemas nos dados, que estão por sua vez relacionados com o problema 2 que você apresentou.

Se você observar o retorno do antigo webservice mencionado no issue #79, verá que existe uma enorme imprecisão no registro de datas e horas de ocorrência dos discursos. Na verdade, o que encontramos registrado na base, na maioria dos casos, é a data e hora de início dos eventos em que os discursos foram feitos. Isso sem contar os inúmeros registros em que a "data do discurso" é uma data em 1898, ou em 1900, ou é simplesmente vazia. Optamos por deixar o campo vazio, já que a data/hora dos eventos pode ser obtida nos próprios dados de eventos, enquanto tentamos descobrir alguma forma de conseguir essa informação com mais precisão.

Os campos para URL dos áudios e vídeos estão aí justamente porque os especificamos desde o começo do projeto da nova API, mas ainda não conseguimos encontrar essa informação nas bases a que temos acesso. Faz um tempo que não investigo esse assunto, mas me parece que simplesmente não há um sistema que registre essas informações.

Quanto ao problema 3, estivemos discutindo questões relacionadas a isso ainda nesta semana. Não há identificadores para os discursos. Estamos analisando a possibilidade de criarmos uma chave composta com os dados da base. Embora não tenhamos na API e nos arquivos os discursos publicados e identificados como recursos individuais, especialmente nos arquivos será preciso criarmos links para outros arquivos que contenham as íntegras dos discursos, mesmo que nestes arquivos estejam agrupados mais de um discurso -- e, nesse caso, precisaríamos de links tipo "âncora" para identificar cada discurso individualmente dentro do arquivo.

Isso sem contar que os discursos anteriores ao ano 2000 são armazenados somente em imagens em formato TIFF, escaneadas do Diário da Câmara ou do Diário do Congresso Nacional. Não houve OCR e estruturação do conteúdo. Temos nas bases registros de número de página em que se encontram os discursos, mas em testes que fizemos esses números não bateram.

Enfim... estamos tentando melhorar o fornecimento dos discursos. Está difícil, mas continue acompanhando que aos poucos a gente vai publicando novidades...

Obrigado de novo e abraço!

Fabricio Rocha Equipe Dados Abertos - Câmara

lucaspetry commented 5 years ago

Boa tarde,

Muito obrigado pelas informações. Após uma análise mais aprofundada, imaginei que a data e a hora de um discurso podem ser imprecisas visto que um evento pode durar mais de um dia. É mais coerente mesmo analisar a data do evento.

Sobre discursos mais antigos, reparei que eles não possuem a transcrição, apenas o anexo do documento. Nestes também não há link para o evento, o que significa que não há registro dos eventos mais antigos?

EquipeDadosAbertosCD commented 5 years ago

Boua!

Sim, esse é outro problema que existe, embora não seja a única causa possível da ausência da informação sobre evento.

A base de dados que registra eventos até importou dados da base que registra sessões e votações do Plenário, mas mesmo nesta os dados mais antigos são de 1991. A base de discursos tem registros mais antigos, ainda da década de 1940 (além de alguns discursos "mais antigos" em que claramente a data foi registrada com erro).

Tenho pensado se haveria interesse da comunidade de usuários em trabalhar em um projeto aberto para extração de textos, por OCR, desses Diários da Câmara e Diários do Congresso Nacional digitalizados. Há muitos discursos e proposições de valor histórico neles.

Abraço!

Fabricio Rocha Equipe Dados Abertos - Câmara

lucaspetry commented 5 years ago

Com certeza! Recentemente fiquei interessado nos dados de discursos e estou iniciando um projetinho para dar uma analisada neles. Pelo que procurei, ninguém fez nada a respeito até o momento. Acho que a ideia para extração dos textos é legal. No futuro talvez eu possa contribuir com algo a respeito.

Abraço!

gacra commented 5 years ago

@CeninCD, agregando a discussão, encontrei um discurso que não possui a tag uriEvento. Nessa caso, como posso encontrar a data e hora do mesmo? Além disso, gostaria de saber se os discursos listados nesse endpoint são apenas os proferidos em plenário, ou também inclui os de comissões.

Obrigado!

EquipeDadosAbertosCD commented 5 years ago

Salve, Acra!

Obrigado pelas perguntas -- que foram daquelas que apertam sem abraçar...

Em setembro de 2018 entrou em operação a quarta geração do sistema usado pela Taquigrafia da Câmara para cadastramento de discursos. Mais uma mudança de identificadores e de dados registrados. Aqui no Dados Abertos a gente tenta esconder as diferenças que existem entre tantas bases e tabelas diferentes (não só sobre discursos), o que é muito complicado e nem sempre funciona.

No ano 2000 houve uma dessas trocas de sistema e os discursos de Plenário passaram a ser registrados em uma outra tabela. Para esses discursos até 2000, nós não encontramos qualquer maneira confiável de obter o identificador do evento, especificamente nos casos em que houve mais de uma sessão do Plenário no mesmo dia, exatamente devido à absoluta imprecisão no registro do horário da sessão (que dirá do horário de ocorrência do discurso em si...). Nesses casos, o campo uriEvento tem que ficar vazio mesmo.

Nos discursos de 2000 pra cá, conseguimos identificar as sessões por meio de uma tabela de outro sistema (o de gravação de áudio), que inclui os identificadores necessários para relacionarmos o sistema de discursos com o sistema de registro das sessões. É muito possível mesmo que em alguns casos não haja esses identificadores. Se você tiver como apontar uma URL específica podemos conferir.

Quanto á segunda questão: por enquanto, só estão sendo fornecidos os discursos de Plenário mesmo. Temos registros de discursos de Plenário desde 1991; já os de comissões só passaram a ser registrados recentemente, coisa de uns dois ou três anos para cá. E a dificuldade que temos para publicá-los é que eles não são cadastrados individualmente na base. Só conseguimos até agora encontrá-los em forma de "inteiro teor", publicados em documentos que agrupam todos os discursos ocorridos em um evento, sem qualquer coisa que permita indexá-los e acessá-los individualmente.

Ainda assim, temos testado algumas maneiras de publicar assim mesmo, tanto pela API quanto por arquivos. É previsto para "real soon now"; só não posso dizer com precisão quando vai ser isso...

Abraço!

Fabricio Rocha Equipe Dados Abertos - Câmara

gacra commented 5 years ago

Acabei esquecendo da mandar a url, desculpa. Nessa busca, nenhum dos discursos tem uriEvento: https://dadosabertos.camara.leg.br/api/v2/deputados/74693/discursos?dataInicio=2018-11-01&dataFim=2018-12-31&ordenarPor=dataHoraInicio&ordem=ASC

De qualquer maneira, obrigado pela rápida resposta, Fabricio. Abraço.