Closed gitjk53 closed 3 years ago
我这里是可以抓取到的: https://m.weibo.cn/s/video/show?object_id=1034:4535640277319696&fromWap=1 你可以再观察一下
昨天又爬了一批,还是没有videoURL。通过mongoexport导出成CSV有那一列,但是用Robo3T直接看数据库里的内容是没有显示videoURL的,不清楚是什么原因
忘了说,我用的是Simple版本,不知道是不是代码和docker版本的不一样的原因导致?
通过关键词爬取到的原创微博数据中未包含视频URL
example: https://weibo.com/6780162462/JeXaW2GtJ
用mongoexport导出到CSV后数据中video_url一栏为空
请问爬到的数据要怎么导出来?第一次接触mongodb,不太会用
我也是第一次用,琢磨了很久,哈哈。
我是去下了mongoexport的组件然后导出成CSV的,mongoexport的官方说明在这里: https://docs.mongodb.com/database-tools/mongoexport/ 你可以在里边找到下载链接和相关操作的指引。
下载好了以后,如果是windows,在CMD里头cd到你mongoexport所在的文件夹,然后输入以下指令可以导出CSV mongoexport --db 你的db名称 --collection 你的collection名称 --type=csv --fieldFile=这里是你要导出什么数据项,我把需要的数据根据items.py导出成了一个txt,然后指向了txt路径C:\Python\WeiboSpider\TweetItems.txt --out 文件导出的地址,要记得把文件名连同.csv都写上。
导出完cmd会告诉你导出了多少条数据。
On Tue, 22 Sep 2020 at 13:34, Sean Zhuh notifications@github.com wrote:
通过关键词爬取到的原创微博数据中未包含视频URL
example: https://weibo.com/6780162462/JeXaW2GtJ
用mongoexport导出到CSV后数据中video_url一栏为空
请问爬到的数据要怎么导出来?第一次接触mongodb,不太会用
— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub https://github.com/nghuyong/WeiboSpider/issues/173#issuecomment-696490913, or unsubscribe https://github.com/notifications/unsubscribe-auth/AQP2RFBLGV5GKHVHOY33PRLSHALMFANCNFSM4RMOHBPQ .
@gitjk53 我使用simple分支测试了一下你抓取的这个用户6780162462,执行的脚本是 python run_spider.py tweet
,具体截图如下,视频的链接是可以正常抓取到的,并且也是正常存在了数据库中
比如说我要爬我自己的微博正文和评论,我先执行python run_spider.py tweet和python run_spider.py content后,再mongoexport --db=xxx, --collection=xxx, --type=csv, --fields=xxx, --out=xxx这样吗?不太懂--db和--collection这两个应该怎么填
是不是要在mongo shell里面先建立一个collection,那python run_spider.py tweet执行完后的数据要怎么存到这个collection里?
@sean-zhuh 不需要新建,程序会自动建好一个collection,collection的名称是写死的,具体参见 https://github.com/nghuyong/WeiboSpider/blob/simple/weibospider/pipelines.py#L11
通过关键词爬取到的原创微博数据中未包含视频URL
example: https://weibo.com/6780162462/JeXaW2GtJ
用mongoexport导出到CSV后数据中video_url一栏为空