xuejianxianzun / PixivBatchDownloader

Chrome 扩展,批量下载 Pixiv 的插画和小说。过滤作品、下载时重命名、转换动态图片等。Powerful Pixiv batch downloader. Batch download artworks and novels, filter works, rename when downloading, convert animated images, and more.
https://pixiv.download/
GNU General Public License v3.0
3.48k stars 208 forks source link

支持保存作品元数据 #377

Closed skyone-bot closed 6 months ago

skyone-bot commented 6 months ago

你需要什么功能?

1. 保存作品元数据

支持保存 https://www.pixiv.net/ajax/illust/${pid} 响应的元数据

我希望实现的功能和 #310 基本一致,但通过标题和tag模糊匹配做起来确实会增加很大的复杂度,所以我有另一个建议:在保存作品的同时,将作品的元数据也保存下来

例如, https://www.pixiv.net/ajax/illust/${pid} 的响应如下:

{
    "error": false,
    "message": "",
    "body": {
      // ...
    }
}

只需要以 PID 为键,以 body 段为值,保存到一个 json 文件里,后续想进行任何操作都可以自行编程解决。

我想实现这个功能会简单一些。

当然,以 ${PID}.json 为名称分别保存也行。


2. 使用正则表达式过滤标题

理论上只要实现上一个功能后,作品下载下来自行处理就行了,但是,当某些画师特别高产时,想把ta的作品全下载下来需要很长时间。 例如我想把这位画师的 Blue Archive 100 天挑战下载下来,下了4页的作品,用了 0.8GB...

所以使用正则表达式过滤标题虽然不是必要的,但会更加方便。


最后,非常感谢您开发出如此方便的拓展🙏

xuejianxianzun commented 6 months ago
  1. 保存原始 json 数据,而且,你大概是想每个作品分别保存一个 json 文件?我认为你可以使用其他爬虫工具来操作。这对普通用户来说没什么意义,因为我认为 99% 的用户都不是程序员,所以我没有动力去添加此功能。 实际上,下载器可以在抓取后自动导出抓取结果,虽然里面的数据并非原始 json,而是下载器内部数据,但用来做数据分析也是可以的。 另外下载器也提供了把某些元数据保存到 txt 文件的功能,但它不是 json 格式,而是纯文本。

  2. 因为这是专业功能,所以我同样不打算添加。但是和上面一样,你可以导出抓取结果,然后自行使用正则表达式匹配符合条件的数据,只下载它们。