dataabc / weibo-crawler

新浪微博爬虫,用python爬取新浪微博数据,并下载微博图片和微博视频
3.33k stars 744 forks source link

重复爬取同一用户的数据 #309

Open Chia202 opened 2 years ago

Chia202 commented 2 years ago

我设置的是爬一个用户指定关键词。 但是保存的 csv 文件里面有多条重复数据

dataabc commented 2 years ago

csv不能去重,如果一定要用csv,可以通过txt文件输入userid,记录爬取状态,这样仍可能会爬起上一次结束日期的微博,但相对来说,去重效果还可以。如果要严格去重,最好使用mysql模式。