fuergaosi233 / gitbook2pdf

Grab the contents of the gitbook document and convert it to pdf
1.04k stars 175 forks source link

抓取失败,记录下问题 #94

Open chensimmons opened 3 years ago

chensimmons commented 3 years ago

我用的是Windows 10,Python 3.9 64位。 首先,现在weasyprint可以直接通过pip 安装,但要正常运行,还要安装一个 GTK+库,具体见: 安装说明#721 ; 然后pip 安装requirements.txt 时,出现了错误,具体是这3个库:cffi,urllib3,requests, urllib3和requests这两个库大概是依赖问题,所以我干脆把这两个库升级到最新版,解决了依赖错误。 cffi这个库要求Microsoft Visual C++ 14.0,这错误没搞懂,我笔记本以前已经安装了visual studio 2019里的构建工具, 要重新配置Microsoft Visual C++ 14.0环境有点麻烦,不想折腾,所以干脆安装cffi的非官方二进制文件,从这里下载: cffi ; 我下载的是 cffi-1.14.6-cp39-cp39-win_amd64 ; 全部环境配置好,然后开始抓取: 首先是这个站点:https://toutyrater.github.io/ , 出现错误“远程计算机 拒绝网络连接”; 然后是这个站点:https://guide.v2fly.org/, 这个倒是没出现任何错误,成功生成PDF,但生成的PDF只有1kb大小,里面是一个空白页面。 以上抓取都是在代理下进行,并且用curl命令测试过代理,代理正常。

不过用这个站点试了试:https://hit-scir.gitbooks.io/neural-networks-and-deep-learning-zh_cn/content/ , 这次抓取成功,生成了一个89页的PDF。