SpiderClub / haipproxy

:sparkling_heart: High available distributed ip proxy pool, powerd by Scrapy and Redis
https://spiderclub.github.io/haipproxy/
MIT License
5.44k stars 912 forks source link

添加新的代理IP供应网站 #52

Closed Flatheadman closed 6 years ago

Flatheadman commented 6 years ago

首先感谢大神们的开源:) 如果想添加新的代理IP供应网站,应该修改哪些配置或者代码呢? 是否考虑添加这个feature呢?毕竟项目提供的这些代理IP供应网站可能难以满足有些特定的需求,比如对某些国外网站的爬取:)

ResolveWang commented 6 years ago

首先,你得知道代理IP抓取器包含四种类型, all_spiders中,四种类型的使用场景你可以看看注释,都写了。然后在CRAWL_TASKS按这种方式添加就行了,如果你无法提取出公共的解析方式,那么可以像parse_my_proxy()方法那样单独写一个解析方法,来解析你要添加的代理IP源,然后把解析的结果入库就行了

Flatheadman commented 6 years ago

非常清楚了!感谢大神!