iiicebearrr / spiders-for-all

A set of useful and scalable spiders to crawl data/videos from bilibili, xiaohongshu, etc.
22 stars 9 forks source link
beautifulsoup4 bilibili-download python3 requests spider video-downloader webcrawler xiaohongshu

爬取、下载哔哩哔哩、小红书等网站数据、视频, 持续更新中...

Warning:

本项目仅供学习交流使用, 请勿用于商业及非法用途, 由此引起的一切后果与作者无关

https://github.com/iiicebearrr/spiders-for-all/assets/110714291/32e098d3-c85e-44c9-b54c-4820365b0235

Menu

Quick Preview

根据用户id爬取b站用户主页投稿视频

python -m spiders_for_all bilibili download-by-author -m 用户id -s 保存目录

根据note_id批量爬取小红书笔记内容

python -m spiders_for_all xhs download-by-id -i note_id1,note_id2,note_id3 -s 保存目录

更多用法见Documentation部份

Installation

pip install spiders-for-all # python 版本 >= 3.12

Documentation

点击进入对应平台的使用文档

Roadmap

Customization

如果你想自定义爬虫, 可以参考以下指引

首先需要了解一下项目爬虫的基本结构, 参考下图:

spider_structure

Find me

Known Issues