Ghauster / BilibiliCommentScraper

B站视频评论爬虫 Bilibili完整爬取评论数据,包括一级评论、二级评论、昵称、用户ID、发布时间、点赞数
MIT License
288 stars 27 forks source link

首先非常感谢和膜拜大佬,代码啥也没改就成功爬取评论了,但是问题是我的数据量难道太大了,有个视频大概3000多条评论,爬了4,5个小时,是电脑性能的问题还是程序的问题? #2

Open 452sunny opened 1 year ago

452sunny commented 1 year ago

@Ghauster

Ghauster commented 1 year ago

大佬真不是,只是一个社科学生为了自己作业需要写的。代码几版改下来之后还没有整体修过,存在很多的赘余等问题。

​关于爬取速度过慢的问题,改sleep时间肯定能稍快一些,但最影响速度的其实是电脑的内存。为了获取更全的字段,代码用了selenium来爬,对于大评论量的页面这会非常地占用内存,一方面可能引起网页奔溃程序自动重试,一方面会让速度变慢。做那个项目时前几天是在自己笔记本上跑的,也挺慢的。后来去了学校机房,32gb内存的电脑,跑得飞快。最后就是向同学借了几个b站账号,开了十几台机子一起爬,爬完了八百多个视频的评论。

452sunny commented 1 year ago

还有个现象是我粘贴了好几个B站视频url,结果会出现有的视频被跳过去了,例如4个只爬了2个,不知道为啥

Ghauster commented 1 year ago

有出现什么报错信息嘛 如果是第{progress["video_count"] + 1}个视频被跳过:无法从 URL {url}中提取 video_id,可能是url格式不太对 如果是第{progress["video_count"] + 1}个视频被跳过:ID {video_id} URL {url}没有找到评论或等了30秒还没加载出来,可能是网络不好或者该链接点进去没找到评论 或者可以把你的链接发一下给我,我尝试复现问题

452sunny commented 1 year ago

链接: https://www.bilibili.com/video/BV1VY411v7BR https://www.bilibili.com/video/BV1xY411Y7Uq https://www.bilibili.com/video/BV1Wj411V7WR https://www.bilibili.com/video/BV19A411U7PQ https://www.bilibili.com/video/BV1HM411J7yr https://www.bilibili.com/video/BV1nv4y1s7XB https://www.bilibili.com/video/BV1yA41127bT https://www.bilibili.com/video/BV1f8411a7vW https://www.bilibili.com/video/BV1Ls4y1b7UE https://www.bilibili.com/video/BV1hg4y1p7bx https://www.bilibili.com/video/BV1iy4y197mU 没有任何报错,命令行直接显示:开始爬取第6个视频……(所以前面5个视频都被跳过了)

Ghauster commented 1 year ago

我这边试了下没有出现这个问题。 可以看下文件夹里是不是有一个progress文件,progress.txt里面记录了上次爬取的位置存档。如果上次任务爬取到第五个,这次重新开始新任务,但未删除progress.txt文件,它还会依照上次的存档从第六个开始爬。

452sunny commented 1 year ago

好嘞谢谢,那我再试一下

impact-404 commented 2 months ago

有出现什么报错信息嘛 如果是第{progress["video_count"] + 1}个视频被跳过:无法从 URL {url}中提取 video_id,可能是url格式不太对 如果是第{progress["video_count"] + 1}个视频被跳过:ID {video_id} URL {url}没有找到评论或等了30秒还没加载出来,可能是网络不好或者该链接点进去没找到评论 或者可以把你的链接发一下给我,我尝试复现问题

佬,我出现这种问题,该怎么处理呢,他直接显示跳过了,是什么情况,网速因该是没问题的。网页都能正常打开