Repositório destinado ao projeto de API do grupo Morpheus, do terceiro semestre do curso de Tecnologia em Banco de Dados da Fatec São José dos Campos - Prof Jessen Vidal
Implementar a funcionalidade que utiliza a biblioteca JSoup para realizar web scraping e extrair dados relevantes (título, conteúdo, autor, data de publicação) de páginas HTML.
Critérios de Aceitação:
A coleta deve ser capaz de lidar com diferentes formatos de páginas HTML, usando JSoup para navegar pela estrutura das páginas e extrair os dados corretos.
Elementos irrelevantes, como rodapés, menus e anúncios, devem ser ignorados.
Tarefas:
Configuração da Biblioteca JSoup:
[x] Adicionar a biblioteca JSoup ao projeto.
[x] Configurar a biblioteca JSoup para realizar web scraping.
Mapeamento de Tags HTML:
[x] Implementar mapeamento para identificar a classe da TAG HTML de titulo.
[x] Implementar mapeamento para identificar a classe da TAG HTML de corpo.
[x] Implementar mapeamento para identificar a classe da TAG HTML de autor.
[x] Implementar mapeamento para identificar a classe da TAG HTML de data.
[x] Implementar o post do portal criando a relação com o mapeamento.
[x] Implementar a edição desse mapeamento.
[x] Implementar a listagem do portal junto com seu mapeamento.
Extração de Dados Relevantes:
[x] Implementar a lógica para extrair o título das páginas HTML.
[x] Implementar a lógica para extrair o conteúdo das páginas HTML.
[x] Implementar a lógica para extrair o autor das páginas HTML.
[x] Implementar a lógica para extrair a data de publicação das páginas HTML.
Lidar com Diferentes Formatos de Páginas HTML:
[x] Implementar a lógica para lidar com diferentes formatos de páginas HTML.
Ignorar Elementos Irrelevantes:
[x] Implementar a lógica para ignorar elementos irrelevantes, como rodapés, menus e anúncios.
Descrição:
Implementar a funcionalidade que utiliza a biblioteca JSoup para realizar web scraping e extrair dados relevantes (título, conteúdo, autor, data de publicação) de páginas HTML.
Critérios de Aceitação:
A coleta deve ser capaz de lidar com diferentes formatos de páginas HTML, usando JSoup para navegar pela estrutura das páginas e extrair os dados corretos.
Elementos irrelevantes, como rodapés, menus e anúncios, devem ser ignorados.
Tarefas:
Configuração da Biblioteca JSoup:
[x] Adicionar a biblioteca JSoup ao projeto.
[x] Configurar a biblioteca JSoup para realizar web scraping.
Mapeamento de Tags HTML:
Extração de Dados Relevantes:
[x] Implementar a lógica para extrair o título das páginas HTML.
[x] Implementar a lógica para extrair o conteúdo das páginas HTML.
[x] Implementar a lógica para extrair o autor das páginas HTML.
[x] Implementar a lógica para extrair a data de publicação das páginas HTML.
Lidar com Diferentes Formatos de Páginas HTML:
Ignorar Elementos Irrelevantes: