zero0mum / cartoon_crawler

爬取百年,漫画呗,古风三个盗版漫画网站,爬取图片地址,可下载或导入漫画,生成本地网页在线或离线观看。漫画爬虫阅读网页 预览地址:https://mumu_zero.gitee.io/ Climb to take a hundred years of comics, comics chant, antique three pirate comics website, climb to get the picture address, can download comics, generate local web page online or offline viewing. Cartoon crawler reading page preview address: https://mumu_zero.gitee.io/
Apache License 2.0
29 stars 4 forks source link
climb comic-crawler comic-downloader comic-reader comics html5 python3 requests selenium-webdriver

漫画爬虫

介绍

写来玩的,看到的大佬点个watch, star还有博客上点个赞啥的鼓励一下我吧(๑•̀ㅂ•́)و✧

漫画爬虫阅读网页 预览地址:

预览地址1. https://mumu_zero.gitee.io/

预览地址2. https://zero0mum.github.io/web/

码云项目地址

github项目地址

详细图文介绍和帮助请看: 简书文章地址 CSDN博文地址

一个阅读,爬取,导入和下载还有打包漫画的python爬虫

bug可以在github或gitee上先新建一个issue然后邮箱联系我。

我的邮箱:mumuwyyx@163.com欢迎你来评论,提意见。

  1. 可分章节下载漫画到本地
  2. 网页可调节漫画宽度,可调节亮度
  3. 上下滚动下拉式阅读
    1. 导入下载的漫画阅读
    2. 书架网页方便阅读,自动记录阅读位置,下次进入自动跳转
    3. 通过其中的漫画打包工具可将下载好的漫画每一章打包为一个zip压缩包,方便在comics++ 布卡漫画 tachiyomi等软件本地漫画功能中使用。
    4. 可通过本地网页阅读下载到本地的漫画

爬取过程: mumu漫画爬虫

漫画阅读网页所有功能展开后: 漫画爬虫功能全部展开

收起时: 漫画爬虫功能全部收起

漫画删除打包导入工具:

漫画导入

软件架构

python3.8.X

依赖库:BeautifulSoup, tqdm, requests ,lxml, selenium, pydub, ffmpeg, simpleaudio

安装教程

源码文件夹中的需要安装python3.8和相关依赖库(文件内有说明有可以自动安装库的.bat批处理脚本,安装库前记得换成国内pip源,要不可能下载失败)

打包好的exe内文件不需要安装,下载其中.zip解压后点击漫画爬虫.exe运行即可。

使用说明

漫画爬虫网页 预览地址:https://mumu_zero.gitee.io/ 详细请看: 简书文章地址 CSDN博文地址 一.爬取 可以先到漫画网站上寻找想看的漫画再来打开爬虫爬取。 双击打开 漫画爬虫.py 或.exe

  1. 先输入你想看的漫画名称。//不建议输入太长的名称。
  2. 输入漫画序号 如输入数字 2选择......一些选择后等待爬取
  3. 点击打开 书架 即可开始阅读(爬取中也可以阅读)
  4. 建议把整个文件夹放在方便查看处 ,方便使用。 (漫画爬虫.py运行完毕后会将爬取到的目录,漫画图片地址,每章节页数的数据分别储存在dist目录下的 章节名称.json,漫画地址.json,pages.json文件内。然后合并为data.json供浏览器读取。)

二.漫画打包工具程序: 选择需要打包的已下载的漫画执行后会在”Download“文件夹中对应的漫画名称文件夹下生成一个叫做 “打包好啦!”的文件夹,并将下载的漫画每一章打包成为一个zip压缩包放入其中,从而方便在其它软件中阅读,比如comics++; tachiyomi app; 布卡漫画app的本地漫画功能。

爬取中推荐使用谷歌chrome浏览器,IE11浏览器不稳定。 爬取中若使用IE浏览器请在爬取前进入IE的 设置>Internet选项>安全>安全中四项 都勾选启动保护模式或全部关闭保护模式并应用

并且将ie浏览器的缩放设置为100%

//如果使用谷歌浏览器,请直接官网下载最新的谷歌浏览器,查看浏览器版本,再到 “各种浏览器驱动” 目录下的 “浏览器驱动更新地址.txt”的地址下载对应版本的浏览器驱动程序替换原驱动程序。 浏览器驱动程序默认下载好的对应 浏览器版本号(如果和你的浏览器版本与默认不同请到浏览器驱动文件夹的下载地址中下载对应版本驱动替换该文件夹中驱动程序): chromedriver.exe>谷歌Chrome 86.0.4240.183;IEDriverServer.exe>ie11浏览器

参与贡献

  1. Fork 本仓库
  2. 新建 Feat_xxx 分支
  3. 提交代码
  4. 新建 Pull Request
  5. 提出你宝贵的意见
  6. 码云项目地址
  7. github项目地址