jhao104 / proxy_pool

Python ProxyPool for web spider
https://jhao104.github.io/proxy_pool/
MIT License
21.38k stars 5.16k forks source link

站大爷反爬虫 #714

Open ja-peng opened 1 year ago

ja-peng commented 1 year ago

采集站大爷的代理ip时,在代码中设置了等待5s再爬下一页,但还是会被封ip image

kl535 commented 1 year ago

爬代理IP的居然被反爬了,这是在打脸。freeproxylists.net也反爬了,建议增加一个功能,用爬到的代理来爬有反爬的站,然后在配置文件中决定哪些源需要用代理IP来爬。

jhao104 commented 1 year ago

爬代理IP的居然被反爬了,这是在打脸。freeproxylists.net也反爬了,建议增加一个功能,用爬到的代理来爬有反爬的站,然后在配置文件中决定哪些源需要用代理IP来爬。

没啥必要,只是采集免费代理源的话,建议把间隔时间调大,应该免费的更新频率本来就很慢