TurboWay / spiderman

基于 scrapy-redis 的通用分布式爬虫框架
MIT License
584 stars 128 forks source link

关于cookies使用的问题 #40

Closed donneyluck closed 1 year ago

donneyluck commented 1 year ago

问题: 在学习爬取steam的过程中 遇到了年龄验证的问题 查询解决方案是使用 cookies 发现在框架中 配置了好像没什么效果 是我的格式有问题吗? image

TurboWay commented 1 year ago

需要使用字符串格式,不是用dict

self.cookies = (
            # 多账号采集的话,可以在这边定制多个 cookie string
            'BAIDUID=D59023F6ABEFB4A60F019E08C58586D2:FG=1; BD_UPN=12314753;BD_CK_SAM=1'
        )
donneyluck commented 1 year ago

起因 学习尝试爬取steam游戏 但是会返回年龄验证页面 经过查询学习尝试了如下方案

  1. 设置cookies 失败 image image

  2. 通过post请求绕过年龄验证 失败 image 发送后 回包页面依然是年龄验证 image

3.通过selenium模拟点击 会真实拉起游览器 感觉效率低 而且不会用

代码在下面 是根据框架模板生成的3个文件 麻烦抽时间指点一下 万分感谢

code.zip

TurboWay commented 1 year ago

该问题与本项目无关,请自行研究。