lqqyt2423 / wechat_spider

微信爬虫,获取文章内容、阅读量、点赞量、评论等,获取公众号所有历史文章链接。
MIT License
1.41k stars 349 forks source link

兼容最新版微信抓取 #29

Closed yimun closed 4 years ago

yimun commented 5 years ago

最新版微信的文章页链接换了,好像改成了长连接传输,抓不到包。 但是直接访问原来的链接也可以抓取数据,所以在公众号抓取完后自动重定向到文章页即可

BolinWang commented 5 years ago

只能爬取l历史文章列表,并不能抓取所有文章正文啊

yimun commented 5 years ago

只能爬取l历史文章列表,并不能抓取所有文章正文啊

原来的微信文章链接还是可以访问的,所以我在公众号抓取完后,自动跳转到旧的文章链接,不需要再点击一次文章详情

ritou11 commented 5 years ago

只需刷新推送即可爬取。这种方法的问题:只能在爬取列表结束后爬取内容,而实际上我们希望能够自由控制内容爬取的启停。

lqqyt2423 commented 4 years ago

目前此项目仅仅是历史页跳历史页,文章页跳文章页,并不打算修改此块逻辑。 最新版微信查看历史消息页面确实不能抓取,不过可以自己拼接旧的微信历史页面打开即可。