cdhigh / KindleEar

Aggregates RSS and web content(Calibre recipe), sends to Kindle, and includes an e-ink optimized online reader.
http://cdhigh.github.io/KindleEar/
MIT License
2.73k stars 630 forks source link

请教 对于提供了JSON但没有rss的网站,有简单抓取方法吗 #621

Closed mlyksuu closed 7 months ago

mlyksuu commented 3 years ago

如题 我见一些网站提供了形如这样,非常工整的东西: https://api.guancha.cn/Appdata/NewsList/?newstype=0&size=10&page=1&type=2&id=ZhangWeiWei 但它并不能直接订阅 请教,有无可以简单的将它转为RSS的工具? 或者提供一个kindleear现成,转换类似链接的book,生搬硬套就能用的那种。(鄙人很菜,只看得懂html) 谢谢!

cdhigh commented 3 years ago

我刚搜索了一下,原来这个东西叫JSON FEED,很新很新的东西,2017年才提出的标准,在RSS式微的今天,再提出这么一个标准显得是那么不合时宜,连RSS都越来越少,这个新的标准应该是没多少网站响应了。

不过抛开应用的背景,JSON比XML(RSS)对编程语言更友好,代码解析比XML要方便许多倍,json文本在python里面一行代码就可以转换为python内部数据结构,然后操作就很方便了。 结论就是难度不高,就看有多少网站支持。

随便说一句:你提供的网址提供的json feed并不符合官方的标准,它只是披了一层json的外衣而已,里面的格式定义有区别。 即使我实现了json feed的订阅(我肯定会按照https://www.jsonfeed.org规定的格式实现),你提供的网站也订阅不了,需要你自己修改。

cdhigh commented 7 months ago

3.0.0b已经实现json feed支持,但是此网站不规范,不考虑支持