关于抓取系列小说

xuejianxianzun / PixivBatchDownloader

Chrome 扩展，批量下载 Pixiv 的插画和小说。过滤作品、下载时重命名、转换动态图片等。Powerful Pixiv batch downloader. Batch download artworks and novels, filter works, rename when downloading, convert animated images, and more.

https://pixiv.download/

GNU General Public License v3.0

3.66k stars 212 forks source link

关于抓取系列小说 #396

Closed fatecyx closed 1 month ago

fatecyx commented 6 months ago

合并系列小说使用epub格式的问题目前把图片直接嵌入到文本里，而且所有章节共用一个xhtml文件，然后比较大的、带有图的小说，导出的epub就根本打不开

2.合并系列小说时希望也能抓一下各章节的meta数据，比较需要的也就是Description部分

xuejianxianzun commented 6 months ago

打不开的小说体积有多大呢？有没有具体作品让我测试下
主要是每个章节开头都加 meta 的话看着会比较乱，影响阅读体验。我再考虑下

fatecyx commented 6 months ago

https://www.pixiv.net/novel/series/10513084

fatecyx commented 6 months ago

meta建议epub里面可以用其他格式来写，比如斜体或者设个style之类的 txt里面，如果只留下Description，只加个分割线应该也不会很乱没有合并的时候，meta.txt里面重复内容就很多，只有url,Thumbnail,Title,Date这几个不同

xuejianxianzun commented 6 months ago

下载器生成 epub 使用的是一个库，它不一定有设置斜体（以及每个章节生成单独的 xhtml）功能。有空了我再看下。

xuejianxianzun commented 1 month ago

17.1.0 版本已修复此问题。之前使用的生成 EPUB 的库不支持把每个章节保存为单独的 html 文件，也不支持把图片单独保存，所以只能全部塞在一个 html 文件里。现在我更换了库，重写了代码解决了这个性能问题。

另外，合并系列小说时如果需要保存元数据，现在会在每章开头保存小说的 Description。