atlantico-academy / apura

Detector de Fake News para noticias em português
https://apura.herokuapp.com/
1 stars 2 forks source link

Entendimento de negócio #2

Closed omadson closed 2 years ago

omadson commented 2 years ago

A etapa de entendimento de negócio se destina a compreensão dos objetivos e requisitos do projeto. Nessa fase vocês precisam executar as seguintes tarefas:

Vocês precisam documentar cada uma dessas coisas. Por hora, coloquem em documentos separados. Mais tarde iremos colocar tudo na documentação.

omadson commented 2 years ago

Pessoal, queria que isso aqui já estivesse definido hoje.

fiuzatayna commented 2 years ago

Aqui o que construímos (@SamyaMaria @DouglasArS @ igor montezuma) hoje no Docs:

Neste projeto almejamos desenvolver um modelo capaz de indicar a confiabilidade de trechos de notícias relacionadas aos presidenciáveis. Para tanto, utilizaremos técnicas de aprendizado de máquina e dados de notícias falsas e autênticas. O modelo produzido deverá alcançar acurácia maior que 80% nos testes finais e deverá ser disponibilizado em plataforma web que poderá ser utilizada por leigos.

Os dados já disponíveis estão etiquetados entre notícias falsas (# número de notícias fake) e verdadeiras (# número de notícias vdd) e este escopo deverá ser aumentado através de web scraping em portais de agências de checagem de notícias, o que facilitará a etiquetagem dos dados obtidos. Os recursos computacionais para a análise exploratória dos dados, construção dos modelos e de implementação da solução advém dos computadores pessoais dos próprios desenvolvedores da equipe.

Os requerimentos para completude do projeto envolvem: aquisição de mais dados de notícias com diferentes etiquetas, definição das funções de limpeza, pré-processamento e codificação dos dados, padronização dos vocábulos utilizados nos textos, extração dos vetores dos textos, construção e comparação de modelos de aprendizado de máquina, obtenção e seleção de modelo com acurácia superior a 80% e implementação do modelo em página web acessível ao usuário final.

Riscos: falha em atingir o nível de acurácia estabelecido como meta para o projeto, dados usados não estarem totalmente certos, banco de dados ser insuficiente para algumas análises. Contingências (ainda por definir).

Metas de mineração: Realizar web scraping pelo menos uma vez ao dia com o objetivo de buscar o máximo de notícias. O objetivo será concluído se houver a coleta de mais de uma notícia de cada objeto de estudo.

Este projeto será desenvolvido utilizando a linguagem python (versão 3.8.10), devido a sua facilidade para manipular dados e as operações com dados existentes das bibliotecas.

Em relação às bibliotecas, para cada etapa serão utilizadas, respectivamente:

Pra visualizar o docs, veja aqui.

omadson commented 2 years ago

Pronto, vocês precisam inserir isso no README.md

fiuzatayna commented 2 years ago

Inseri esse conteúdo no README.md (da branch feature/eda) e já adicionei meu github na área de desenvolvedores. Não coloquei as @ dos demais colegas pra dar a chance de cada um editar o README no seu terminal, ajustando erros de ortografia e melhorando o documento como um todo. @SamyaMaria @DouglasArS @RNy7846 @Jwinny

P.S.: Ainda não consigo marcar o igor montezuma... você conseguiu adicioná-lo a esse ambiente, @omadson ?

omadson commented 2 years ago

Tudo certinho aqui. Fechando a issue.