Open tlyu0419 opened 3 years ago
https://tlyu0419.github.io/2020/02/07/WebCrawler-ProxyPool/#more
當我們在進行網路爬蟲時,或多或少都會碰到網站設置的反爬蟲機制,其中簡單的是檢查headers(瀏覽器參數),複雜些的則會「鎖定大量訪問的IP」、「圖形驗證碼」、「登入」…等等,不過既然有「反爬蟲機制」,當然也就會有「反反爬蟲機制」囉! 今天我要介紹的就是如何建構代理IP的清單( Proxy Pool ),透過代理IP來爬資料我們就可以避開「鎖定大量訪問的IP」的反爬蟲機制!
https://tlyu0419.github.io/2020/02/07/WebCrawler-ProxyPool/#more
當我們在進行網路爬蟲時,或多或少都會碰到網站設置的反爬蟲機制,其中簡單的是檢查headers(瀏覽器參數),複雜些的則會「鎖定大量訪問的IP」、「圖形驗證碼」、「登入」…等等,不過既然有「反爬蟲機制」,當然也就會有「反反爬蟲機制」囉! 今天我要介紹的就是如何建構代理IP的清單( Proxy Pool ),透過代理IP來爬資料我們就可以避開「鎖定大量訪問的IP」的反爬蟲機制!