关于微博爬虫对于“网页链接”的爬取

dataabc / weiboSpider

新浪微博爬虫，用python爬取新浪微博数据

8.44k stars 1.98k forks source link

Open mTommy777 opened 2 months ago

mTommy777 commented 2 months ago

答：目前使用该代码进行微博爬虫操作时，正文部分只能摘取到文本内容，但是在下面的”网页链接“超链接中，不能有效获取其中网址，希望得到补充，谢谢

答：

dataabc commented 2 months ago

感谢建议。目前没有这个打算，微博中可能包含多个链接，甚至正文内容也可能是链接，不好取舍。目前一种做法是提取包含网页代码的微博，不作其它处理，这个需要修改代码。

mTommy777 commented 2 months ago

好的谢谢，我在您的修改代码，尝试加入爬取网页链接过后出现了可以进入并读取网页获取用户信息，但爬取到微博正文为0的问题，删除我修改的部分后也是相同的问题，想请问您有相同问题吗

dataabc commented 2 months ago

我最近不方便调试代码，如果无法修复问题，您也可以修改使用免cookie版的。

mTommy777 commented 2 months ago

好的，谢谢您，祝工作顺利