Descrição:

Implementar a funcionalidade que utiliza a biblioteca JSoup para realizar web scraping e extrair dados relevantes (título, conteúdo, autor, data de publicação) de páginas HTML.

Critérios de Aceitação:

A coleta deve ser capaz de lidar com diferentes formatos de páginas HTML, usando JSoup para navegar pela estrutura das páginas e extrair os dados corretos.
Elementos irrelevantes, como rodapés, menus e anúncios, devem ser ignorados.

Tarefas:

Configuração da Biblioteca JSoup:

[x] Adicionar a biblioteca JSoup ao projeto.
[x] Configurar a biblioteca JSoup para realizar web scraping.

Mapeamento de Tags HTML:

[x] Implementar mapeamento para identificar a classe da TAG HTML de titulo.
[x] Implementar mapeamento para identificar a classe da TAG HTML de corpo.
[x] Implementar mapeamento para identificar a classe da TAG HTML de autor.
[x] Implementar mapeamento para identificar a classe da TAG HTML de data.
[x] Implementar o post do portal criando a relação com o mapeamento.
[x] Implementar a edição desse mapeamento.
[x] Implementar a listagem do portal junto com seu mapeamento.

Extração de Dados Relevantes:

[x] Implementar a lógica para extrair o título das páginas HTML.
[x] Implementar a lógica para extrair o conteúdo das páginas HTML.
[x] Implementar a lógica para extrair o autor das páginas HTML.
[x] Implementar a lógica para extrair a data de publicação das páginas HTML.

Lidar com Diferentes Formatos de Páginas HTML:

[x] Implementar a lógica para lidar com diferentes formatos de páginas HTML.

Ignorar Elementos Irrelevantes:

[x] Implementar a lógica para ignorar elementos irrelevantes, como rodapés, menus e anúncios.

Morpheus-Fatec / morpheus

[D] [Web Scrapping] Lógica de Coleta de Dados #40

Descrição:

Critérios de Aceitação:

Tarefas: