DoooReyn / WxRead-WebAutoReader

微信读书自动阅读器,全自动刷阅读时长,轻轻松松冲顶霸榜,您的微读挂机好帮手
393 stars 107 forks source link

有没有可能随便把书的内容拷贝下来, #10

Closed qcq closed 3 years ago

qcq commented 3 years ago

有没有可能随便把书的内容拷贝下来。于是,从某种意义上完成了从微信读书下载书籍的功能。虽然,某种意义上来讲可能有点慢。

DoooReyn commented 3 years ago

理论上来讲是完全有可能的,只要解析每一页的文章内容,然后保存到本地,当整本书拉取完成后,进行合并操作,不过并不建议,这个阅读器也不适合做这个工作。

qcq commented 3 years ago

特地调查了返回的网页,我反正是没有找到字符串文本,另外你知道获取每一张的API命令吗。 只能曲线做这个事情,我最近特别感兴趣。 please check my github for wechatcopyer, which is in beginning.

DoooReyn commented 3 years ago

特地调查了返回的网页,我反正是没有找到字符串文本,另外你知道获取每一张的API命令吗。 只能曲线做这个事情,我最近特别感兴趣。 please check my github for wechatcopyer, which is in beginning.

我看了下,文章内容藏在 renderTargetContent 元素内,可以尝试去写一个解析器。

qcq commented 3 years ago

真的吗,我保存下来的网页没有看到正文的字符串。另外你是如何保存这个html的,我是chrome->更多工具->网页另存为。帮忙确认一下,截个图给在下看看可好。因为有的字符串只是书本的描述。 我是一个C++工程师,对前端一窍不通。

DoooReyn commented 3 years ago

真的吗,我保存下来的网页没有看到正文的字符串。另外你是如何保存这个html的,我是chrome->更多工具->网页另存为。帮忙确认一下,截个图给在下看看可好。因为有的字符串只是书本的描述。 我是一个C++工程师,对前端一窍不通。

它把每个字符或图片作为一个元素标签了,直接搜索字符串是找不到的。你可以打开chrome的开发者工具,切换到元素标签页,然后再找renderTargetContent,下面就是内容了。

qcq commented 3 years ago

确实如此,不过还有个问题,字符加扰动了,完全是乱序,另外之前我在保存下来的源码文件找不到是因为——也加了扰动 比如,汉字对应的16进制中间加了=,文字的都好用-号代替等等。

DoooReyn commented 3 years ago

确实如此,不过还有个问题,字符加扰动了,完全是乱序,另外之前我在保存下来的源码文件找不到是因为——也加了扰动 比如,汉字对应的16进制中间加了=,文字的都好用-号代替等等。

路漫漫其修远兮,加油!

lixiaolang12000 commented 3 years ago

如果通过ocr来实现呢?

qcq commented 3 years ago

如果通过ocr来实现呢?

看看我的github,我在一边整理思路,一边在写代码。但是,最近的积极性不高了。哈哈哈。