SpiderClub / weibospider

:zap: A distributed crawler for weibo, building with celery and requests.
MIT License
4.81k stars 1.21k forks source link

无法看见转推信息; 评论,点赞,回复数等也是0 #190

Open myrainbowandsky opened 4 years ago

myrainbowandsky commented 4 years ago

1.你是怎么操作的? 一台机器上默认开启所有任务。 celery -A tasks.workers worker -l info -c 1

2.你期望的结果是什么? 转推所有相关信息,包括: 1.转推数, 2.所有转推人列表 3.转推的原作者, 4.原围脖发送时间, 5.原微博内容,

3.实际上你得到的结果是什么?

  1. 执行:python3 first_task_execution/repost_first.py 得到:2020-02-28 17:32:42 - crawler - INFO - There are 11836 repost urls have to be crawled 然后就没了

  2. 在抓取用户信息时 执行 celery -A tasks.workers -Q login_queue,fans_followers worker -l info -c 1 得到 截屏2020-02-2818 38 16

  3. 请问UI界面的用户信息是不是我抓取的微博的博主的信息,还是随机抓取的?也就是说必须先有种子数据(先抓取一定量的微博)才能再抓取相对应的其他信息,如果不抓取任何微博,其他一切数据抓取都是0。

  4. 关于 https://github.com/SpiderClub/weibospider/wiki/WeibSpider%E4%B8%AD%E6%89%80%E6%9C%89%E4%BB%BB%E5%8A%A1%E5%8F%8A%E5%85%B6%E4%BD%9C%E7%94%A8%E8%AF%B4%E6%98%8E 任务表述 comment_crawler 抓取第一页评论的任务
    comment_page_crawler 根据第一页评论分发的抓取其它页评论的任务
    repost_crawler 抓取第一页转发的任务
    repost_page_crawler 抓取第一页之后的转发数据
    praise_crawler 抓取第一页点赞的任务
    praise_page_crawler 抓取第一页之后的点赞数据

这个“第一页之后”是什么意思?

  1. mysql里面有一个user_relation 是储存什么用的?任何一个任务都无法填充这个表。 截屏2020-02-2818 47 46

  2. 在UI界面内的“微博信息”的用户ID和“用户信息”里的用户ID无法在对方搜索栏中找到。 “用户信息”是🈯️哪些用户?是转发的用户?微博信息是博主信息?

  3. 执行所有任务时报错。

截屏2020-02-2819 04 07

在UI界面上,找不到转推信息,怎么设置才能看见。还是说要去mysql手动找? 评论,点赞,回复数为什么是0呢 截屏2020-02-2813 18 50

4.你使用的是哪个版本的WeiboSpider? 你的操作系统是什么?是否有读本项目的常见问题? UBUNTU18.04,master

thekingofcity commented 4 years ago
  1. 第一页之后是ajax请求时的页数, 请稍微了解一下网页版微博的网络请求流程
  2. 数据库表字段说明
myrainbowandsky commented 4 years ago
  1. 第一页之后是ajax请求时的页数, 请稍微了解一下网页版微博的网络请求流程
  2. 数据库表字段说明

5.如何向 user_relation 填入数据?

thekingofcity commented 4 years ago

默认会在抓取用户信息的时候抓取其关注和粉丝列表, 见

myrainbowandsky commented 4 years ago

谢谢,其他问题可以解答一下吗

thekingofcity commented 4 years ago

UI界面从未使用过, 等待他人回复吧

qwer331821731 commented 4 years ago

我这里抓下来的微博评论,点赞,回复数也都是0,执行的search任务。是否网页结构发生改变导致解析有问题。