howie6879 / owllook

owllook-小说搜索引擎
https://www.owllook.net
Apache License 2.0
2.65k stars 752 forks source link

另一个分类方法 #44

Closed hsyysy closed 6 years ago

hsyysy commented 6 years ago

我有一个想法,仅供参考。 目前的分类机制是对于一个书名,有不同的提供网站。 但实际上每本书都有一个或几个官方发布网站,网站可以抓取到书的目录和每一章的前两段,那么 1.通过网友的共同劳动,像Wiki一样建立一个书名与官方发布页面地址的映射目录。 2.抓取官方发布的目录建立书籍的目录,然后通过每章前两段内容与其他网站内容的比对抽取完整章节。 而不用显示多个源。

可能存在以下问题 1.抓取官方目录和前两段可能涉嫌侵权。 2.文字对比可能正确率低。