DadosAbertosDeFeira / analises

Análises dos dados relacionados a Feira de Santana 📊
https://dadosabertosdefeira.github.io/analises/
MIT License
36 stars 14 forks source link

Identificar palavras-chaves importantes do Diário Oficial #164

Open anapaulagomes opened 3 years ago

anapaulagomes commented 3 years ago

Queremos criar threads pelo nosso bot informando sobre palavras-chaves encontradas no conteúdo de um diário. Mas precisamos identificar quais são as palavras ou expressões mais importantes. Atualmente temos um conjunto de palavras. Porém são poucas e existe um potencial grande em outras expressões.

Exemplo com palavras-chave e palavras-chave relacionadas:

Para definir essas palavras-chave, seria legal fazermos uma análise das palavras ou expressões mais importantes no diário oficial.

O conteúdo dos diários pode ser visto em nosso dataset do diário oficial no Kaggle.

anapaulagomes commented 3 years ago

https://queridodiario.ok.org.br/glossario

guilhermelowa commented 3 years ago

Opa! Posso pegar essa?

anapaulagomes commented 3 years ago

@guilhermelowa pode sim! A análise pode ser publicada no repo de análises mesmo, tá?

gabicavalcante commented 3 years ago

Para definir essas palavras-chave, seria legal fazermos uma análise das palavras ou expressões mais importantes no diário oficial.

@anapaulagomes uma curiosidade, vocês já chegaram a definir o que seriam expressões importantes? existiria alguma referência para identificar isso?

guilhermelowa commented 3 years ago

Não cheguei a conversar com Ana sobre isso, mas acho que vale dar uma investigada, por tema (educação, saúde, turismo), com TF-IDF, LDA e ver o que aparece. Pensei em ler alguns DOs pra tentar identificar alguma coisa manualmente e fazer isso.

anapaulagomes commented 3 years ago

Olá, @gabicavalcante! Bom te ver por aqui.

Então, não. Como os diários tem muito texto repetido e uma linguagem mais verbosa, o que eu tinha em mente era extrair as palavras relevantes para o entendimento do que aconteceu depois que eliminamos esse ruído. O glossário do Querido Diário (https://queridodiario.ok.org.br/glossario) tem me ajudado a entender melhor as minúncias do diário mas temos que explorar mais os dados e ler algumas edições pra entender o que seria importante pra gente.

Para reduzir a abrangência dessa tarefa, poderíamos quebrar em partes essas análises. Por exemplo (peguei de maneira aleatória): nomeações e exonerações. Aqui um trecho do diário ANO VII- EDIÇÃO 938 – DATA 14/05/2021.

EXTRATO DE EXONERAÇÕES E NOMEAÇÕES 
Extrato  dos  Decretos  Individuais  de  Exonerações  e  Nomeações  dos  Cargos  de  Provimento  Temporário  da 
Câmara Municipal de Feira de Santana, de acordo com a Lei nº 4.004/2019. Data: 05 de maio de 2021. 
Nº 443/2021 – Resolve exonerar a Sra. MARIANA RODRIGUES DA COSTA PINTO DE CARVALHO, do cargo de Agente Parlamentar, 
símbolo AGEP, cargo de provimento temporário, lotada no Gabinete do Vereador Jhonatas Lima Monteiro, com vigência, a partir do 
dia 05 de maio de 2021.        
Nº 444/2021 – Resolve exonerar a Sra RAFAELA SOUSA GONÇALVES, do cargo de Assistente de Gabinete Parlamentar, símbolo 
ASGP, cargo de provimento temporário, lotada no Gabinete do Vereador Jhonatas Lima Monteiro, com vigência, a partir do dia 05 de 
maio de 2021.        
Nº  445/2021  –  Resolve  nomear  a  Sra  MARIANA  RODRIGUES  DA  COSTA PINTO  DE  CARVALHO,  para  o cargo  de Assistente  de 
Gabinete Parlamentar, símbolo ASGP, cargo de provimento temporário, lotada no Gabinete do Vereador Jhonatas Lima Monteiro, com 
vigência, a partir do dia 05 de maio de 2021.        
Nº  446/2021  –  Resolve  nomear  a  Sra  RAFAELA  SOUSA  GONÇALVES,  para  o  cargo  de  Assessor  Especial  Parlamentar,  símbolo 
ASEP, cargo de provimento temporário, lotada no Gabinete do Vereador Jhonatas Lima Monteiro, com vigência, a partir do dia 05 de 
maio de 2021 
Nº 447/2021 – Resolve nomear o Sr. ORLANDO DA SILVA DALTRO JUNIOR, para o cargo de Assessor Especial Parlamentar, símbolo 
ASEP, cargo de provimento temporário, lotado no Gabinete do Vereador Luiz Augusto de Jesus,  com vigência, a partir do dia 05 de 
maio de 2021.

As palavras-chaves que seriam importantes e relacionadas a esse tema seriam: nomear e exonerar. O que acha?

gabicavalcante commented 3 years ago

@anapaulagomes desculpa a demora 😞

Eu testei fazer algumas análises nos documentos, usando o TF – IDF, mas acabei encontrando muitos ruídos mesmo. Palavras como edição, ano, documento acabam deixando o resultado não tão interessante 🤔 eu tentei remover verbos e algumas stop words, mas ainda ficou ruim. Eu até peguei um doc que eu sabia que tinha "covid" sendo citada, mas ela apareceu como algo pouco relevante 😢

Então, não. Como os diários tem muito texto repetido e uma linguagem mais verbosa, o que eu tinha em mente era extrair as palavras relevantes para o entendimento do que aconteceu depois que eliminamos esse ruído. O glossário do Querido Diário (https://queridodiario.ok.org.br/glossario) tem me ajudado a entender melhor as minúncias do diário mas temos que explorar mais os dados e ler algumas edições pra entender o que seria importante pra gente. Para reduzir a abrangência dessa tarefa, poderíamos quebrar em partes essas análises. Por exemplo (peguei de maneira aleatória): nomeações e exonerações. Aqui um trecho do diário ANO VII- EDIÇÃO 938 – DATA 14/05/2021.

Acho que entendi melhor, no caso a gente teria um conjunto de assuntos de interesse já definidos, e tentaríamos encontrar esses assuntos nos documentos, certo?

anapaulagomes commented 3 years ago

Obrigada por ver isso, @gabicavalcante! Oq tu acha de publicar essa análise pra gente deixar o que já fizemos documentado?

Sobre os resultados: minha ideia inicial era que, criando um conjunto de stop words específico para o diário, nós conseguiríamos entender melhor os assuntos. Uma outra alternativa seria parsearmos a estrutura do DO de Feira, com a estrutura que já conhecemos e, a partir daí, tentar extrair sentido do texto. Não tenho dúvidas que vamos precisar ler algumas edições e entender melhor o vocabulário até chegarmos lá.

Recentemente começamos uma parceria para extrair informações de nomeações e exonerações no DO, utilizando labeling para ter um ponto de partida. Assim que tiver qualquer avanço eu compartilho com vocês mas ainda estamos bem no início.

Podemos conversar com a galera do Querido Diário e ver o que eles já descobriram também.

você tem ideias de caminhos pra isso @gabicavalcante?

gabicavalcante commented 3 years ago

Obrigada por ver isso, @gabicavalcante! Oq tu acha de publicar essa análise pra gente deixar o que já fizemos documentado?

achei uma ideia ótima :D vou só organizar um pouco o notebook antes de subir. vcs tem algum lugar específico para postrar análises?

Sobre os resultados: minha ideia inicial era que, criando um conjunto de stop words específico para o diário, nós conseguiríamos entender melhor os assuntos. Uma outra alternativa seria parsearmos a estrutura do DO de Feira, com a estrutura que já conhecemos e, a partir daí, tentar extrair sentido do texto. Não tenho dúvidas que vamos precisar ler algumas edições e entender melhor o vocabulário até chegarmos lá.

Eu vou tentar rodar novamente o que fiz com um conjunto de stop words maior 🤔 Eu nunca cheguei a trabalhar com algo muito complexo para achar "assuntos" em textos, a forma como fiz foi já tendo um conjunto de palavras e sinônimos definidos. Daí passávamos para um modelo e ele dava a taxa de confiabilidade daquele texto ter aquele assunto.

Podemos conversar com a galera do Querido Diário e ver o que eles já descobriram também.

seria uma boa :))

anapaulagomes commented 3 years ago

Aqui o repo, @gabicavalcante: https://github.com/DadosAbertosDeFeira/analises.

No fds vou estar no sprint de análise de dados para cidades da Python Brasil. Me avisa se quiser trocar uma ideia sobre isso. :)