analytics-ufcg / rcongresso

Pacote R para acessar dados do congresso nacional.
https://analytics-ufcg.github.io/rcongresso
47 stars 10 forks source link

Relacionadas do Senado não vêm completas da API #146

Open tarcisobraz opened 5 years ago

tarcisobraz commented 5 years ago

Eu tava dando uma olhada aqui e tem vários casos nos quais tem matérias relacionadas no site, mas não vem nada na API. Pensando bem, seria melhor a gente fazer duas coisas: 1 - Mandar uma mensagem para a ouvidoria do Senado relatando o problema 2 - Pegar do site (crawler da página) e da API, salvando a união dos dois conjuntos retornados.

Exemplos de projetos do Senado para os quais vêm dados de relacionadas no site que não estão na API: https://www25.senado.leg.br/web/atividade/materias/-/materia/133613 https://www25.senado.leg.br/web/atividade/materias/-/materia/126085 https://www25.senado.leg.br/web/atividade/materias/-/materia/136173

ivynasantino commented 5 years ago

Comecei a desenvolver o algoritmo de raspagem, está na branch site-relacionadas