dataabc / weibo-crawler

新浪微博爬虫,用python爬取新浪微博数据,并下载微博图片和微博视频
3.25k stars 739 forks source link

定期爬取的时间问题 #375

Open Arukassss opened 1 year ago

Arukassss commented 1 year ago

有些微博发了几个小时就删,如果我设定每十分钟爬一次,程序会不会自动判断新微博的时间,还是说依旧按照since_date来计算 举个例子 6月20号早上8点用户发了一条,我在8点30分的时候开始爬取,之后每隔十分钟就运行一次程序。到了9点的时候用户又发了一条,这条是否可以被爬取到,还是要到6月21号凌晨的0点才能被识别再爬取

dataabc commented 1 year ago

如果设定不变,每次都是从最新微博爬到since_date。理论上只要在某条微博发布后,运行程序就可以得到它,因为程序是从最新的开始爬的。