带视频微博未抓取视频URL

gitjk53 commented 4 years ago

通过关键词爬取到的原创微博数据中未包含视频URL

example： https://weibo.com/6780162462/JeXaW2GtJ

用mongoexport导出到CSV后数据中video_url一栏为空

nghuyong commented 4 years ago

我这里是可以抓取到的： https://m.weibo.cn/s/video/show?object_id=1034:4535640277319696&fromWap=1 你可以再观察一下

gitjk53 commented 4 years ago

昨天又爬了一批，还是没有videoURL。通过mongoexport导出成CSV有那一列，但是用Robo3T直接看数据库里的内容是没有显示videoURL的，不清楚是什么原因

gitjk53 commented 4 years ago

忘了说，我用的是Simple版本，不知道是不是代码和docker版本的不一样的原因导致？

seanzhuh commented 4 years ago

通过关键词爬取到的原创微博数据中未包含视频URL

example： https://weibo.com/6780162462/JeXaW2GtJ

用mongoexport导出到CSV后数据中video_url一栏为空

请问爬到的数据要怎么导出来？第一次接触mongodb，不太会用

gitjk53 commented 4 years ago

我也是第一次用，琢磨了很久，哈哈。

我是去下了mongoexport的组件然后导出成CSV的，mongoexport的官方说明在这里： https://docs.mongodb.com/database-tools/mongoexport/ 你可以在里边找到下载链接和相关操作的指引。

下载好了以后，如果是windows，在CMD里头cd到你mongoexport所在的文件夹，然后输入以下指令可以导出CSV mongoexport --db 你的db名称 --collection 你的collection名称 --type=csv --fieldFile=这里是你要导出什么数据项，我把需要的数据根据items.py导出成了一个txt，然后指向了txt路径C:\Python\WeiboSpider\TweetItems.txt --out 文件导出的地址，要记得把文件名连同.csv都写上。

导出完cmd会告诉你导出了多少条数据。

On Tue, 22 Sep 2020 at 13:34, Sean Zhuh notifications@github.com wrote:

通过关键词爬取到的原创微博数据中未包含视频URL

example： https://weibo.com/6780162462/JeXaW2GtJ

用mongoexport导出到CSV后数据中video_url一栏为空

请问爬到的数据要怎么导出来？第一次接触mongodb，不太会用

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub https://github.com/nghuyong/WeiboSpider/issues/173#issuecomment-696490913, or unsubscribe https://github.com/notifications/unsubscribe-auth/AQP2RFBLGV5GKHVHOY33PRLSHALMFANCNFSM4RMOHBPQ .

nghuyong commented 4 years ago

@gitjk53 我使用simple分支测试了一下你抓取的这个用户6780162462，执行的脚本是 python run_spider.py tweet，具体截图如下，视频的链接是可以正常抓取到的，并且也是正常存在了数据库中

seanzhuh commented 4 years ago

比如说我要爬我自己的微博正文和评论，我先执行python run_spider.py tweet和python run_spider.py content后，再mongoexport --db=xxx, --collection=xxx, --type=csv, --fields=xxx, --out=xxx这样吗？不太懂--db和--collection这两个应该怎么填

seanzhuh commented 4 years ago

是不是要在mongo shell里面先建立一个collection，那python run_spider.py tweet执行完后的数据要怎么存到这个collection里？

nghuyong commented 3 years ago

@sean-zhuh 不需要新建，程序会自动建好一个collection，collection的名称是写死的，具体参见 https://github.com/nghuyong/WeiboSpider/blob/simple/weibospider/pipelines.py#L11

nghuyong / WeiboSpider

带视频微博未抓取视频URL #173