通过调用豆瓣接口,聚合想要爬取小组的租房信息,并可通过关键词进行匹配及排除。
为了方便,使用了 Django admin 进行数据的可视化。通过 Django admin 可对数据进行搜索,过滤等简单功能。
由于豆瓣的限制,爬取每篇帖子都会随机等待 3~5 秒,以尽量不触及 Rate Limit,爬取速度比较慢,但能获取更多内容。
python3 -m venv venv
, 并激活 . venv/bin/activate
pip install -r requirements.txt
make migrate
douban_group_spy/settings.py
中的 COOKIE
配置修改为你的 Cookie (cookie key 为 dbcl2
)python crawler_main.py -g 106955 -g baoanzufang -k 灵芝 -k 翻身 -e 求租
make run_server
, 默认账号密码均为 admin-g
: 要爬取小组的 id-k
: 查找关键词-e
: 排除关键词--sleep
: 爬一个周期后暂停的时间, 默认 60 * 30
秒(15 分钟)--pages
: 爬一个周期每个小组的页数,默认 10
页-v
: 展示 debug 信息,默认 False一个周期就是爬取参数里的所有小组,每个小组默认的爬取页数的总和。
文章列表
文章详情
小组列表
小组详情