IshtarTang / weibo_spider

新浪微博爬虫,保存一个用户发过的所有内容,保存包括原链接、正文、评论等21个字段(停止更新)(微博换新UI后已无法使用)
19 stars 6 forks source link

关于防爬机制的咨询 #3

Closed linbeyoung closed 2 years ago

linbeyoung commented 3 years ago

请问有什么防反爬的机制吗?或者能怎么更换IP吗?

IshtarTang commented 3 years ago

没怎么做反反爬,因为目前这种爬取速度并不会被反爬,也没整换ip的方法 如果说爬取中断的话,是因为微博有个机制是每个session在半个小时后会失效,必须新建一个,但就 我发现这个的时候已经在写别的项目了,session我是全局通用一个,加上我当时脑子抽把结构写得非常乱,我怕改出新bug,就一直搁置着。

IshtarTang commented 3 years ago

还有就是,在这个程序里换ip的意义不大,因为他的功能是爬取一个用户的微博,不登录状态下(也就是不写cookies)下 你只能看到一个用户微博的第一页,而登录后如果频繁换ip反而容易被判为账号异常