striver-ing / wechat-spider

开源微信爬虫:爬取公众号所有 文章、阅读量、点赞量和评论内容。易部署。持续维护!!!
2.37k stars 598 forks source link

_biz如何获取 #31

Open Myfootnotsmelly opened 3 years ago

Myfootnotsmelly commented 3 years ago

解决了。还有一个问题就是数据能抓取了但没写入数据库

Myfootnotsmelly commented 3 years ago

都解决了 mysql密码填错了哈哈

bigjialong commented 3 years ago

biz你是怎么获取的啊?(这个biz是什么啊?)

Myfootnotsmelly commented 3 years ago

如果都顺利的话,一点开公众号历史记录,控制台就会输出抓包记录,biz就在那些GET请求的参数里(需要自己找一找

bigjialong commented 3 years ago

谢谢回复问题已解决,我还想问下这个代码可以实现文字全文的爬取吗?

Myfootnotsmelly commented 3 years ago

在wechat_article表的content-html列,是html格式的

bigjialong commented 3 years ago

我是初学者(麻烦了)有什么办法可以把里面的文字提取出来啊,非常抱歉打扰

bigjialong commented 3 years ago

或许我可以加你微信向你请教一些问题,十分抱歉打扰

Myfootnotsmelly commented 3 years ago

这就超出我的知识范围了,从网上找找抓取网页的文本内容 (去除HTML标签)的库吧(同初学者哈哈)