Discussão sobre fontes e métodos para scraping de dados imobiliários

Thiagonox commented 1 year ago

Olá a todos! Gostaria de iniciar uma discussão sobre as melhores fontes e estratégias para realizar web scraping de dados imobiliários disponíveis na internet. O objetivo é coletar informações relevantes sobre imóveis, como preço, localização, características, etc., de várias fontes e reuni-las em um único banco de dados.

Algumas perguntas para iniciar a discussão:

Quais são os principais sites de imóveis que podem ser alvo para o scraping de dados?
Quais técnicas e ferramentas são mais eficientes para extrair esses dados de diferentes sites?
Quais desafios podemos encontrar ao coletar dados imobiliários e como podemos superá-los?
Quais são as melhores práticas para garantir a qualidade e a integridade dos dados coletados?

Sinta-se à vontade para compartilhar suas experiências, sugerir bibliotecas ou frameworks específicos, discutir técnicas avançadas ou qualquer outra contribuição relevante para a discussão.

VictorKayk commented 1 year ago

Depois de fazer uma pesquisa sobre o assunto, eu encontrei respostas que podem contribuir para solucionar algumas de suas questões.

Quais são os principais sites de imóveis que podem ser alvo para o scraping de dados?

ZAP Imóveis (www.zapimoveis.com.br)
Viva Real (www.vivareal.com.br)
Imovelweb (www.imovelweb.com.br)
OLX Imóveis (www.olx.com.br/imoveis)
Mercado Livre Imóveis (imoveis.mercadolivre.com.br)
QuintoAndar (www.quintoandar.com.br)
Casa Mineira (www.casamineira.com.br)
Chaves na Mão (www.chavesnamao.com.br)
Lopes Imóveis (www.lopes.com.br)

Essa lista contém os principais sites imobiliários do Brasil.

Quais técnicas e ferramentas são mais eficientes para extrair esses dados de diferentes sites?

Como ferramenta para essa aplicação, eu recomendaria o selenium com python, além de ser muito facil e intuitivo de se usar, é a ferramenta que geralmente é usada para criar esse tipo de aplicação.

Quais desafios podemos encontrar ao coletar dados imobiliários e como podemos superá-los?

É importante observar que o scraping de dados de um site pode violar os termos de uso do site e até mesmo as leis de proteção de dados. Para isso precisamos nos certificar de verificar e respeitar as políticas do site e a legislação aplicável.

Quais são as melhores práticas para garantir a qualidade e a integridade dos dados coletados?

Eu recomendaria que a busca e coleta dos dados fossem feitas apartir da demanda dos usuarios do sistema, em vez de buscar todos os dados possivies. Assim garantiriamos que so salvariamos dados que são importantes para os usuarios.

Thiagonox commented 1 year ago

Acho importante considerar o Facebook Marketplace dentre as fontes de coleta.

VictorKayk commented 1 year ago

@Thiagonox Com o Facebook Marketplace, fecha 10 possiveis sites para fazer a busca.

Thiagonox commented 1 year ago

Agora é pesquisar os termos de uso de cada site para saber se é viável fazer scraping em cada um deles

Thiagonox commented 1 year ago

@AlissonAnjos21 Qual a sua opinião sobre usar selenium nesse projeto?

AlissonAnjos21 commented 1 year ago

Eu acho que o Selenium seria bom pra coisas em pequenas escalas, mas não para o nível desse projeto

AlissonAnjos21 commented 1 year ago

Vou propor uma ideia, por que a gente não faz uma pesquisa sobre as alternativas ao Selenium, nível "Sommelier de framework"

Thiagonox commented 1 year ago

perfeito

Thiagonox commented 1 year ago

precisa considerar a demanda do projeto

Thiagonox commented 1 year ago

Encontrei esse: https://scrapy.org

AlissonAnjos21 commented 1 year ago

Encontrei esse: https://scrapy.org

Você chegou a testá-lo?

Thiagonox commented 1 year ago

ainda não

VictorKayk commented 1 year ago

@Thiagonox @AlissonAnjos21 Já foi decidido que a linguagem que sera utilizada para criar o webscrapping é python né? Além dela ser uma linguagem bastante utilizada pra isso, acho que vai ser interessante usar esse projeto para ganhar experiencia na linguagem.

Thiagonox commented 1 year ago

Python é o melhor que temos para um projeto desse porte

Thiagonox commented 1 year ago

Gostaria de informar a todos que a issue relacionada à escolha de fontes e métodos para a coleta de dados imobiliários em nosso projeto foi resolvida. Após uma análise cuidadosa, foi decidido que iremos utilizar o framework Scrapy, conhecido por sua eficiência e flexibilidade.

Além disso, definimos os seguintes sites como alvo para o web scraping:

ZAP Imóveis: www.zapimoveis.com.br
Imovelweb: www.imovelweb.com.br
OLX Imóveis: www.olx.com.br/imoveis
Mercado Livre Imóveis: imoveis.mercadolivre.com.br
QuintoAndar: www.quintoandar.com.br
Facebook Marketplace: www.facebook.com/marketplace

Esses sites foram selecionados com base em sua relevância e popularidade no mercado imobiliário. Com essa abrangência, esperamos coletar um conjunto de dados diversificado e completo para nossa análise.

Gostaria de ressaltar que as escolhas de sites para o web scraping e o uso do framework Scrapy não são imutáveis. Estamos abertos a revisões e melhorias, visando sempre atender às necessidades e objetivos do projeto da melhor forma possível.

setlmnt / seek

Discussão sobre fontes e métodos para scraping de dados imobiliários #1