tlyu0419 / TLYu0419.github.io

Big data , Mechine learning
4 stars 3 forks source link

露天拍賣 網路爬蟲 | Journey #48

Open tlyu0419 opened 2 years ago

tlyu0419 commented 2 years ago

https://tlyu0419.github.io/2020/06/14/Crawler-Ruten/#more

最近想要購買新的筆記型電腦,但是筆記型電腦的品牌/規格又多又複雜,在網站上總是看的頭昏眼花,不如就來寫個爬蟲程式自動幫我們整理出結構化的資料吧! 註:本篇文章僅供研究使用,請勿惡意大量爬取資料造成對方公司的負擔

franchingkao commented 2 years ago

您好 我想爬取特定賣家下的商品Id (例如 url: https://www.ruten.com.tw/store/joey4116/) 但找不到文中api的位置 url = 'https://rtapi.ruten.com.tw/api/search/v3/index.php/core/prod?cateid={}&sort=rnk%2Fdc&offset={}&limit=80&2653512&_callback=jsonpcb_CoreProd'.format(cateid, offset)

有試過先爬取單一商品分類中的所有商品id 再篩選seller符合該賣家的商品資訊 結果卻發現爬取單一商品分類時,好像因為網站設定最大頁數為40,所以單一分類全部只抓得到三千多筆商品

所以看來還是得先取得api 想問您我該去哪邊取得? 謝謝