Open anapaulagomes opened 3 years ago
Opa! Posso pegar essa?
@guilhermelowa pode sim! A análise pode ser publicada no repo de análises mesmo, tá?
Para definir essas palavras-chave, seria legal fazermos uma análise das palavras ou expressões mais importantes no diário oficial.
@anapaulagomes uma curiosidade, vocês já chegaram a definir o que seriam expressões importantes? existiria alguma referência para identificar isso?
Não cheguei a conversar com Ana sobre isso, mas acho que vale dar uma investigada, por tema (educação, saúde, turismo), com TF-IDF, LDA e ver o que aparece. Pensei em ler alguns DOs pra tentar identificar alguma coisa manualmente e fazer isso.
Olá, @gabicavalcante! Bom te ver por aqui.
Então, não. Como os diários tem muito texto repetido e uma linguagem mais verbosa, o que eu tinha em mente era extrair as palavras relevantes para o entendimento do que aconteceu depois que eliminamos esse ruído. O glossário do Querido Diário (https://queridodiario.ok.org.br/glossario) tem me ajudado a entender melhor as minúncias do diário mas temos que explorar mais os dados e ler algumas edições pra entender o que seria importante pra gente.
Para reduzir a abrangência dessa tarefa, poderíamos quebrar em partes essas análises. Por exemplo (peguei de maneira aleatória): nomeações e exonerações. Aqui um trecho do diário ANO VII- EDIÇÃO 938 – DATA 14/05/2021.
EXTRATO DE EXONERAÇÕES E NOMEAÇÕES
Extrato dos Decretos Individuais de Exonerações e Nomeações dos Cargos de Provimento Temporário da
Câmara Municipal de Feira de Santana, de acordo com a Lei nº 4.004/2019. Data: 05 de maio de 2021.
Nº 443/2021 – Resolve exonerar a Sra. MARIANA RODRIGUES DA COSTA PINTO DE CARVALHO, do cargo de Agente Parlamentar,
símbolo AGEP, cargo de provimento temporário, lotada no Gabinete do Vereador Jhonatas Lima Monteiro, com vigência, a partir do
dia 05 de maio de 2021.
Nº 444/2021 – Resolve exonerar a Sra RAFAELA SOUSA GONÇALVES, do cargo de Assistente de Gabinete Parlamentar, símbolo
ASGP, cargo de provimento temporário, lotada no Gabinete do Vereador Jhonatas Lima Monteiro, com vigência, a partir do dia 05 de
maio de 2021.
Nº 445/2021 – Resolve nomear a Sra MARIANA RODRIGUES DA COSTA PINTO DE CARVALHO, para o cargo de Assistente de
Gabinete Parlamentar, símbolo ASGP, cargo de provimento temporário, lotada no Gabinete do Vereador Jhonatas Lima Monteiro, com
vigência, a partir do dia 05 de maio de 2021.
Nº 446/2021 – Resolve nomear a Sra RAFAELA SOUSA GONÇALVES, para o cargo de Assessor Especial Parlamentar, símbolo
ASEP, cargo de provimento temporário, lotada no Gabinete do Vereador Jhonatas Lima Monteiro, com vigência, a partir do dia 05 de
maio de 2021
Nº 447/2021 – Resolve nomear o Sr. ORLANDO DA SILVA DALTRO JUNIOR, para o cargo de Assessor Especial Parlamentar, símbolo
ASEP, cargo de provimento temporário, lotado no Gabinete do Vereador Luiz Augusto de Jesus, com vigência, a partir do dia 05 de
maio de 2021.
As palavras-chaves que seriam importantes e relacionadas a esse tema seriam: nomear e exonerar. O que acha?
@anapaulagomes desculpa a demora 😞
Eu testei fazer algumas análises nos documentos, usando o TF – IDF, mas acabei encontrando muitos ruídos mesmo. Palavras como edição
, ano
, documento
acabam deixando o resultado não tão interessante 🤔 eu tentei remover verbos e algumas stop words, mas ainda ficou ruim. Eu até peguei um doc que eu sabia que tinha "covid" sendo citada, mas ela apareceu como algo pouco relevante 😢
Então, não. Como os diários tem muito texto repetido e uma linguagem mais verbosa, o que eu tinha em mente era extrair as palavras relevantes para o entendimento do que aconteceu depois que eliminamos esse ruído. O glossário do Querido Diário (https://queridodiario.ok.org.br/glossario) tem me ajudado a entender melhor as minúncias do diário mas temos que explorar mais os dados e ler algumas edições pra entender o que seria importante pra gente. Para reduzir a abrangência dessa tarefa, poderíamos quebrar em partes essas análises. Por exemplo (peguei de maneira aleatória): nomeações e exonerações. Aqui um trecho do diário ANO VII- EDIÇÃO 938 – DATA 14/05/2021.
Acho que entendi melhor, no caso a gente teria um conjunto de assuntos de interesse já definidos, e tentaríamos encontrar esses assuntos nos documentos, certo?
Obrigada por ver isso, @gabicavalcante! Oq tu acha de publicar essa análise pra gente deixar o que já fizemos documentado?
Sobre os resultados: minha ideia inicial era que, criando um conjunto de stop words específico para o diário, nós conseguiríamos entender melhor os assuntos. Uma outra alternativa seria parsearmos a estrutura do DO de Feira, com a estrutura que já conhecemos e, a partir daí, tentar extrair sentido do texto. Não tenho dúvidas que vamos precisar ler algumas edições e entender melhor o vocabulário até chegarmos lá.
Recentemente começamos uma parceria para extrair informações de nomeações e exonerações no DO, utilizando labeling para ter um ponto de partida. Assim que tiver qualquer avanço eu compartilho com vocês mas ainda estamos bem no início.
Podemos conversar com a galera do Querido Diário e ver o que eles já descobriram também.
você tem ideias de caminhos pra isso @gabicavalcante?
Obrigada por ver isso, @gabicavalcante! Oq tu acha de publicar essa análise pra gente deixar o que já fizemos documentado?
achei uma ideia ótima :D vou só organizar um pouco o notebook antes de subir. vcs tem algum lugar específico para postrar análises?
Sobre os resultados: minha ideia inicial era que, criando um conjunto de stop words específico para o diário, nós conseguiríamos entender melhor os assuntos. Uma outra alternativa seria parsearmos a estrutura do DO de Feira, com a estrutura que já conhecemos e, a partir daí, tentar extrair sentido do texto. Não tenho dúvidas que vamos precisar ler algumas edições e entender melhor o vocabulário até chegarmos lá.
Eu vou tentar rodar novamente o que fiz com um conjunto de stop words maior 🤔 Eu nunca cheguei a trabalhar com algo muito complexo para achar "assuntos" em textos, a forma como fiz foi já tendo um conjunto de palavras e sinônimos definidos. Daí passávamos para um modelo e ele dava a taxa de confiabilidade daquele texto ter aquele assunto.
Podemos conversar com a galera do Querido Diário e ver o que eles já descobriram também.
seria uma boa :))
Aqui o repo, @gabicavalcante: https://github.com/DadosAbertosDeFeira/analises.
No fds vou estar no sprint de análise de dados para cidades da Python Brasil. Me avisa se quiser trocar uma ideia sobre isso. :)
Queremos criar threads pelo nosso bot informando sobre palavras-chaves encontradas no conteúdo de um diário. Mas precisamos identificar quais são as palavras ou expressões mais importantes. Atualmente temos um conjunto de palavras. Porém são poucas e existe um potencial grande em outras expressões.
Exemplo com palavras-chave e palavras-chave relacionadas:
Para definir essas palavras-chave, seria legal fazermos uma análise das palavras ou expressões mais importantes no diário oficial.
O conteúdo dos diários pode ser visto em nosso dataset do diário oficial no Kaggle.