topiccrawler / jkcrawler

使用 Scrapy 写成的 JK 爬虫,图片源自哔哩哔哩、Tumblr、Instagram,以及微博、Twitter
GNU General Public License v3.0
115 stars 28 forks source link
crawling jk scrapy spider webcrawler

jkcrawler

2019/10/25 更新:加入微博话题

2019/10/24 更新:加入哔哩哔哩相簿

使用 Scrapy 写成的 JK 爬虫,图片源自哔哩哔哩、Tumblr、Instagram,以及微博、Twitter

安装依赖

pip install -r requirements.txt

启动爬虫

在 Windows 上需要在 PowerShell 中执行以下命令

scrapy crawl api.vc.bilibili -o data/api.vc.bilibili.jsonlines
scrapy crawl instagram -o data/instagram.jsonlines
scrapy crawl m.weibo -o data/m.weibo.jsonlines
scrapy crawl makooooon.tumblr -o data/makooooon.tumblr.jsonlines
scrapy crawl ryoryo-chan.tumblr -o data/ryoryo-chan.tumblr.jsonlines

若要在下一次启动爬虫时恢复工作进度,则需要在命令后面加上 -s JOBDIR=crawls/{spider_name}

下载的图片在 data/full/,相关信息在 data/{spider_name}.jsonlines