josenaldo / caderno-data-science

Minhas anotações no caminho de aprender Data Science
https://josenaldo.github.io/caderno-data-science
21 stars 1 forks source link

Data Science e Política na Operação Serenata de Amor – Hipsters #62 #26

Closed josenaldo closed 2 years ago

josenaldo commented 3 years ago

Links

Descrição

Diversos projetos open source tentam trabalhar com os dados abertos do governo e outras entidades de transparência. A operação Serenata de Amor é certamente um dos projetos mais bem sucedidos e estruturados. Conheça um pouco dos objetivos do grupo e tecnologias existentes por trás.

Participantes:

Links do episódio:

josenaldo commented 2 years ago

Anotações

A operação Serenata de Amor surgiu em abril de 2016. A motivação foi usar ciência de dados em cima de dados abertos, de forma a beneficiar a população em geral.

A operação começou depois que o Cuducos pesquisou sobre dados abertos do governo brasileiro e descobriu a Cota Parlamentar, um dataset que indica os gastos de pessoa física dos parlamentares.

Os dados estão disponíveis no site da Câmara.

O PSA baixa os dados dos sites do governo e processa esses sites, para encontrar irregularidades nos gastos.

Após identificar um gasto, o PSA fazi, automaticamente, uma denúncia ao governo. O problema desse modelo é que, de acordo com a lei, bastava o aprlamentar justificar o gasto como algo ligado ao trabalho dele como parlamentar. Logo, denunciar direto para a câmara não funciona.

A denúncia junto a órgãos de controle (como CGU ou MP) deve legar em conta o valor dos gastos irregulares. Uma vez que o processo é caro, não compensa abrir processos por um valor muito baixo. O custo é muito maior que o retorno e o Estado acaba tendo prejuízo.

Quando o projeto começou, o orçamento do projeto (financiado por crowdfunding) era pra 3 meses. Isso limitou o escopo do projeto, que deveria entregar valor em 3 meses. Para dar conta desse objetivo, eles utilizaram a metodologia Hypothesis-Driven Development.

Para identificar gastos anormais, eles começaram comparando preços de restaurantes no Yelp com os gastos parlamentares. Isso não deu certo, pois os restaurantes frequentados pelos parlamentares não estavam na plataforma yelp.

Então eles passaram a buscar a identificação de outliers. Eles identificaram que gastos no mesmo lugar seguem uma distribuição padrão. Com base nisso, eles identificaram como outliers aqueles que estavam acima da média + 3x desvio padrão.

Após a identificação, os registros são verificados manualmente e a denúncia deve ser feita manualmente, pois não existe legislação que permita que uma denúncia seja feita por um robô.

A principal linguagem do projeto é Python.

O projeto tem uma plataforma de visualização de dados. Também tem uma plataforma pra gerenciar datasets (baixa, trata e limpa os datasets).

O projeto utiliza bastante os notebooks Python, porém eles aceitam contribuições em qualquer linguagem, desde que essa linguagem possa rodar no Jupyter.

Após aceitas, as contribuições não criadas em Python são migradas pra essa linguagem e levadas pra Rosie.

Pra quem quiser contribuir com código o primeiro passo é ler o Guia de Contribuição do projeto. Depois, ler um texto sobre as diferentes partes do projeto.

O repositório principal serve como playground pra se testar hipóteses e ideias. O painel dee issues desse repositório é a principal ferramenta de comunicação com o público. Esse é o repositório ideal pra quem está iniciando com Data Science.

A Rosie é um pipeline completo de auditoria de dados. ela pega os dados na fonte, processa as hipóteses e produz como saída um arquivo CSV com todos os reembolsos, indicando quais são suspeitos e por quais motivos são suspeitos.

O Jarbas, publicado em http://jarbas.serenata.ai/, é a plataforma de visualização dos dados produzidos pela Rosie.

O Jarbas apresenta também informações extras, que a câmara não divulga, como fichas de CNPJ dos lugares onde foram feitos os gastos.

OBS: Segundo alguns reembolsos, nossos deputados podem ter inventado o teletransporte. Em alguns outros casos, temos parlamentares com um apetite digno da Magali.