Open 452sunny opened 1 year ago
大佬真不是,只是一个社科学生为了自己作业需要写的。代码几版改下来之后还没有整体修过,存在很多的赘余等问题。
关于爬取速度过慢的问题,改sleep时间肯定能稍快一些,但最影响速度的其实是电脑的内存。为了获取更全的字段,代码用了selenium来爬,对于大评论量的页面这会非常地占用内存,一方面可能引起网页奔溃程序自动重试,一方面会让速度变慢。做那个项目时前几天是在自己笔记本上跑的,也挺慢的。后来去了学校机房,32gb内存的电脑,跑得飞快。最后就是向同学借了几个b站账号,开了十几台机子一起爬,爬完了八百多个视频的评论。
还有个现象是我粘贴了好几个B站视频url,结果会出现有的视频被跳过去了,例如4个只爬了2个,不知道为啥
有出现什么报错信息嘛
如果是第{progress["video_count"] + 1}个视频被跳过:无法从 URL {url}中提取 video_id
,可能是url格式不太对
如果是第{progress["video_count"] + 1}个视频被跳过:ID {video_id} URL {url}没有找到评论或等了30秒还没加载出来
,可能是网络不好或者该链接点进去没找到评论
或者可以把你的链接发一下给我,我尝试复现问题
链接: https://www.bilibili.com/video/BV1VY411v7BR https://www.bilibili.com/video/BV1xY411Y7Uq https://www.bilibili.com/video/BV1Wj411V7WR https://www.bilibili.com/video/BV19A411U7PQ https://www.bilibili.com/video/BV1HM411J7yr https://www.bilibili.com/video/BV1nv4y1s7XB https://www.bilibili.com/video/BV1yA41127bT https://www.bilibili.com/video/BV1f8411a7vW https://www.bilibili.com/video/BV1Ls4y1b7UE https://www.bilibili.com/video/BV1hg4y1p7bx https://www.bilibili.com/video/BV1iy4y197mU 没有任何报错,命令行直接显示:开始爬取第6个视频……(所以前面5个视频都被跳过了)
我这边试了下没有出现这个问题。 可以看下文件夹里是不是有一个progress文件,progress.txt里面记录了上次爬取的位置存档。如果上次任务爬取到第五个,这次重新开始新任务,但未删除progress.txt文件,它还会依照上次的存档从第六个开始爬。
好嘞谢谢,那我再试一下
有出现什么报错信息嘛 如果是
第{progress["video_count"] + 1}个视频被跳过:无法从 URL {url}中提取 video_id
,可能是url格式不太对 如果是第{progress["video_count"] + 1}个视频被跳过:ID {video_id} URL {url}没有找到评论或等了30秒还没加载出来
,可能是网络不好或者该链接点进去没找到评论 或者可以把你的链接发一下给我,我尝试复现问题
佬,我出现这种问题,该怎么处理呢,他直接显示跳过了,是什么情况,网速因该是没问题的。网页都能正常打开
@Ghauster