nghuyong / WeiboSpider

持续维护的新浪微博采集工具🚀🚀🚀
MIT License
3.66k stars 825 forks source link

带视频微博未抓取视频URL #173

Closed gitjk53 closed 3 years ago

gitjk53 commented 4 years ago

通过关键词爬取到的原创微博数据中未包含视频URL

example: https://weibo.com/6780162462/JeXaW2GtJ

用mongoexport导出到CSV后数据中video_url一栏为空

nghuyong commented 4 years ago

我这里是可以抓取到的: https://m.weibo.cn/s/video/show?object_id=1034:4535640277319696&fromWap=1 你可以再观察一下

gitjk53 commented 4 years ago

昨天又爬了一批,还是没有videoURL。通过mongoexport导出成CSV有那一列,但是用Robo3T直接看数据库里的内容是没有显示videoURL的,不清楚是什么原因

gitjk53 commented 4 years ago

忘了说,我用的是Simple版本,不知道是不是代码和docker版本的不一样的原因导致?

seanzhuh commented 4 years ago

通过关键词爬取到的原创微博数据中未包含视频URL

example: https://weibo.com/6780162462/JeXaW2GtJ

用mongoexport导出到CSV后数据中video_url一栏为空

请问爬到的数据要怎么导出来?第一次接触mongodb,不太会用

gitjk53 commented 4 years ago

我也是第一次用,琢磨了很久,哈哈。

我是去下了mongoexport的组件然后导出成CSV的,mongoexport的官方说明在这里: https://docs.mongodb.com/database-tools/mongoexport/ 你可以在里边找到下载链接和相关操作的指引。

下载好了以后,如果是windows,在CMD里头cd到你mongoexport所在的文件夹,然后输入以下指令可以导出CSV mongoexport --db 你的db名称 --collection 你的collection名称 --type=csv --fieldFile=这里是你要导出什么数据项,我把需要的数据根据items.py导出成了一个txt,然后指向了txt路径C:\Python\WeiboSpider\TweetItems.txt --out 文件导出的地址,要记得把文件名连同.csv都写上。

导出完cmd会告诉你导出了多少条数据。

On Tue, 22 Sep 2020 at 13:34, Sean Zhuh notifications@github.com wrote:

通过关键词爬取到的原创微博数据中未包含视频URL

example: https://weibo.com/6780162462/JeXaW2GtJ

用mongoexport导出到CSV后数据中video_url一栏为空

请问爬到的数据要怎么导出来?第一次接触mongodb,不太会用

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub https://github.com/nghuyong/WeiboSpider/issues/173#issuecomment-696490913, or unsubscribe https://github.com/notifications/unsubscribe-auth/AQP2RFBLGV5GKHVHOY33PRLSHALMFANCNFSM4RMOHBPQ .

nghuyong commented 4 years ago

@gitjk53 我使用simple分支测试了一下你抓取的这个用户6780162462,执行的脚本是 python run_spider.py tweet,具体截图如下,视频的链接是可以正常抓取到的,并且也是正常存在了数据库中 image image

seanzhuh commented 4 years ago

比如说我要爬我自己的微博正文和评论,我先执行python run_spider.py tweet和python run_spider.py content后,再mongoexport --db=xxx, --collection=xxx, --type=csv, --fields=xxx, --out=xxx这样吗?不太懂--db和--collection这两个应该怎么填

seanzhuh commented 4 years ago

是不是要在mongo shell里面先建立一个collection,那python run_spider.py tweet执行完后的数据要怎么存到这个collection里?

nghuyong commented 3 years ago

@sean-zhuh 不需要新建,程序会自动建好一个collection,collection的名称是写死的,具体参见 https://github.com/nghuyong/WeiboSpider/blob/simple/weibospider/pipelines.py#L11