有没有可能随便把书的内容拷贝下来，

DoooReyn / WxRead-WebAutoReader

微信读书自动阅读器，全自动刷阅读时长，轻轻松松冲顶霸榜，您的微读挂机好帮手

393 stars 107 forks source link

Closed qcq closed 3 years ago

qcq commented 3 years ago

有没有可能随便把书的内容拷贝下来。于是，从某种意义上完成了从微信读书下载书籍的功能。虽然，某种意义上来讲可能有点慢。

DoooReyn commented 3 years ago

理论上来讲是完全有可能的，只要解析每一页的文章内容，然后保存到本地，当整本书拉取完成后，进行合并操作，不过并不建议，这个阅读器也不适合做这个工作。

qcq commented 3 years ago

特地调查了返回的网页，我反正是没有找到字符串文本，另外你知道获取每一张的API命令吗。只能曲线做这个事情，我最近特别感兴趣。 please check my github for wechatcopyer, which is in beginning.

DoooReyn commented 3 years ago

特地调查了返回的网页，我反正是没有找到字符串文本，另外你知道获取每一张的API命令吗。只能曲线做这个事情，我最近特别感兴趣。 please check my github for wechatcopyer, which is in beginning.

我看了下，文章内容藏在 renderTargetContent 元素内，可以尝试去写一个解析器。

qcq commented 3 years ago

真的吗，我保存下来的网页没有看到正文的字符串。另外你是如何保存这个html的，我是chrome->更多工具->网页另存为。帮忙确认一下，截个图给在下看看可好。因为有的字符串只是书本的描述。我是一个C++工程师，对前端一窍不通。

DoooReyn commented 3 years ago

真的吗，我保存下来的网页没有看到正文的字符串。另外你是如何保存这个html的，我是chrome->更多工具->网页另存为。帮忙确认一下，截个图给在下看看可好。因为有的字符串只是书本的描述。我是一个C++工程师，对前端一窍不通。

它把每个字符或图片作为一个元素标签了，直接搜索字符串是找不到的。你可以打开chrome的开发者工具，切换到元素标签页，然后再找renderTargetContent，下面就是内容了。

qcq commented 3 years ago

确实如此，不过还有个问题，字符加扰动了，完全是乱序，另外之前我在保存下来的源码文件找不到是因为——也加了扰动比如，汉字对应的16进制中间加了=，文字的都好用-号代替等等。

DoooReyn commented 3 years ago

确实如此，不过还有个问题，字符加扰动了，完全是乱序，另外之前我在保存下来的源码文件找不到是因为——也加了扰动比如，汉字对应的16进制中间加了=，文字的都好用-号代替等等。

路漫漫其修远兮，加油！

lixiaolang12000 commented 3 years ago

如果通过ocr来实现呢？

qcq commented 3 years ago

如果通过ocr来实现呢？

看看我的github，我在一边整理思路，一边在写代码。但是，最近的积极性不高了。哈哈哈。