onewhitethreee / zhihu_tools

知乎盐选会员文章下载 zhihu vip
64 stars 14 forks source link
vip zhihu

# zhihu_tools


知乎严选文章爬虫。

从根本上爬取严选文章。自从去年开始,知乎就改变了网页的规则,这也就导致了出现很多错误,包括但不限于字体错乱...

以前,知乎严选的文章还可在网页上直接观看,但是从2022/23开始,知乎改变了规则,严选文章必须要在手机APP上查看,真不知道他们怎么想的。这种反爬虫措施也想的出来,不过这确实隔绝了很多爬虫小白。有盾就有矛,虽然麻烦了一点但也没有彻底隔绝。


2024-04-20 代码重构

目录树 🤷‍♂️

├─answerSpider
│  └─__pycache__
├─config
│  └─__pycache__
├─ddddocr
│  └─__pycache__
├─fakeUserAgent
│  └─__pycache__
├─fontPreview
│  └─__pycache__
├─main
│  └─__pycache__
└─marketSpider
    └─__pycache__

开发计划 😘

如何使用? 😶‍🌫️

- python3环境
- 正常的脑子 🧠
- 至少小学的语文水平 📚

下载此项目文件到本地

1. 打开cmd
2. cd到项目文件目录
3. 在config.ini文件中填写你的cookie
4. python main/spider.py

选项1

  1. 选项1用来爬取知乎带有question的严选文章,这在以前倒是没有什么困难获取到链接,但是现在知乎改变了规则,从Appe复制的链接是不带有question关键词的,而是带有soia关键词的,也就是另外一个App的内容了。不过方法总比困难多,你可以抓包获取带有question的链接。目前选项1闲置中。

选项2

  1. 选项2用来爬取知乎带有market的文章内容。链接也还是通过抓包获取到的。这个选项是可以使用的。
  2. 链接示例:https://www.zhihu.com/market/paid_column/1702723501155422208/section/1788920608135983104

选项3

  1. 一本完整的严选书籍爬取。什么时候想做了再做吧。

选项4

  1. 这个选项是用来爬取带有关键词的严选文章,通常在网页端打开链接,看到最后会要求在App中查看并且给出了一个关键词让你去搜索,这个选项是用来解决这个问题的。什么时候想做了再做吧。

报错?🤡

1. module not found

1. 无法爬取?🤡🤡

  1. 未知错误

这个项目有什么用?🤷‍♂️


所看皆可爬