Closed aureliowozhiak closed 11 months ago
API para teste: https://www.freetogame.com/api-doc
Para scrapper, é bom ter alguns sites variados, Wikipedia, Sites de noticias, blogs genericos, e outras coisas.
Também é interessante fazer scrapper em buscadores (google, duckduckgo, bing, etc)
Para scrapper, é bom ter alguns sites variados, Wikipedia, Sites de noticias, blogs genericos, e outras coisas.
Também é interessante fazer scrapper em buscadores (google, duckduckgo, bing, etc)
Web scraping para teste: https://books.toscrape.com/
Eu já utilizei esse site específico para treinar web scraping. Serviria também?
Ótimo @Priscaruso, uma coisa que podemos implementar, inclusive, é uma "recursão" dentro do site, extraindo todos os links internos e navegado até pegar tudo de todas as paginas existentes, e esse site parece ser ótimo para testar esse tipo de coisa.
Boa @aureliowozhiak. Se não me engano, eu já fiz isso nesse site mesmo em um outro projeto, mas usando funções. Para esse projeto a ideia seria implementar com classes?
Boa @aureliowozhiak. Se não me engano, eu já fiz isso nesse site mesmo em um outro projeto, mas usando funções. Para esse projeto a ideia seria implementar com classes?
sim, dá uma olhadinha nessa classe: https://github.com/aureliowozhiak/DLaaS/blob/main/methods/extractors/webPageDataScrappers.py
nesse exemplo de utilização: https://github.com/aureliowozhiak/DLaaS/blob/main/main.py
e nesse arquivo de configuração: https://github.com/aureliowozhiak/DLaaS/blob/main/config_files/webscrapper.json
acho que isso pode te dar um contexto melhor, se quiser, pode chamar ali no discord.
@aureliowozhiak todas as fontes web vão ficar no config_files webscrapper.json?
então, a ideia é ter os arquivos de configuração para organizar, então num primeiro momento podemos colocar tudo no webscrapper.json, mas como a lógica no main.py está:
if "webscrapper" in filename:
webscrapper = WebPageDataScrappers(url)
o arquivo só precisa conter "webscrapper" no nome, então da pra ter mais de um arquivo de configuração para esse metodo, por exemplo:
todos esses vão funcionar pois contem a palavra no nome do arquivo.
O mesmo vale para as outras fontes, "api", "mysql" e outros que vão surgindo.
@aureliowozhiak A ideia da classe WebPageDataScrappers é ser uma superclasse, podendo ter subclasses com características diferentes para outras fontes web?
@Priscaruso a ideia é ser uma classe que faça tudo de forma generica, se necessario vai ter subclasses, mas o ideal é que tudo seja atendido de forma generica independente da fonte
Definir algumas fontes de dados para testar as classes de conectores (apis, scrappers, bancos de dados e outras)