Cada contribuidor da equipe pesquisou e implementou um algoritmo específico de Machine Learning focado em classificação de texto, dando prioridade para os algoritmos de classificação do Scikit-Learn.
Foi utilizado um dataset de categoria de notícias. Esse dataset poosui cerca de 210 mil notícias categorizadas em 40 tópicos. Ele foi selecionado por apresentar uma boa similiaridade com o dataset de propostas do Brasil Participativo e por possuir muito mais dados, apesar de ainda possuir uma desproporção de notícias por categoria (situação normal em datasets). Mais detalhes podem ser encontrados no link do dataset ou no notebook do Random Forest.
O pipeline (extração e pre-processamento) dos dados seguiu-se de maneira semelhante em todos os testes e métrica de precisão média dos modelos ficou próximo do 50%. Sugestões de otimização e testes com outros algoritmos ainda estão em discussão e provavelmente serão realizados para alcançar uma métrica satisfatória (acima de 85% de precisão).
Cada contribuidor da equipe pesquisou e implementou um algoritmo específico de Machine Learning focado em classificação de texto, dando prioridade para os algoritmos de classificação do Scikit-Learn.
Foi utilizado um dataset de categoria de notícias. Esse dataset poosui cerca de 210 mil notícias categorizadas em 40 tópicos. Ele foi selecionado por apresentar uma boa similiaridade com o dataset de propostas do Brasil Participativo e por possuir muito mais dados, apesar de ainda possuir uma desproporção de notícias por categoria (situação normal em datasets). Mais detalhes podem ser encontrados no link do dataset ou no notebook do Random Forest.
O pipeline (extração e pre-processamento) dos dados seguiu-se de maneira semelhante em todos os testes e métrica de precisão média dos modelos ficou próximo do 50%. Sugestões de otimização e testes com outros algoritmos ainda estão em discussão e provavelmente serão realizados para alcançar uma métrica satisfatória (acima de 85% de precisão).