支持保存作品元数据

xuejianxianzun / PixivBatchDownloader

Chrome 扩展，批量下载 Pixiv 的插画和小说。过滤作品、下载时重命名、转换动态图片等。Powerful Pixiv batch downloader. Batch download artworks and novels, filter works, rename when downloading, convert animated images, and more.

GNU General Public License v3.0

3.48k stars 208 forks source link

你需要什么功能？

1. 保存作品元数据

支持保存 https://www.pixiv.net/ajax/illust/${pid} 响应的元数据

我希望实现的功能和 #310 基本一致，但通过标题和tag模糊匹配做起来确实会增加很大的复杂度，所以我有另一个建议：在保存作品的同时，将作品的元数据也保存下来

例如， https://www.pixiv.net/ajax/illust/${pid} 的响应如下：

{
    "error": false,
    "message": "",
    "body": {
      // ...
    }
}

只需要以 PID 为键，以 body 段为值，保存到一个 json 文件里，后续想进行任何操作都可以自行编程解决。

我想实现这个功能会简单一些。

当然，以 ${PID}.json 为名称分别保存也行。

2. 使用正则表达式过滤标题

理论上只要实现上一个功能后，作品下载下来自行处理就行了，但是，当某些画师特别高产时，想把ta的作品全下载下来需要很长时间。 ~~例如我想把这位画师的 Blue Archive 100 天挑战下载下来，下了4页的作品，用了 0.8GB...~~

所以使用正则表达式过滤标题虽然不是必要的，但会更加方便。

最后，非常感谢您开发出如此方便的拓展🙏

保存原始 json 数据，而且，你大概是想每个作品分别保存一个 json 文件？我认为你可以使用其他爬虫工具来操作。这对普通用户来说没什么意义，因为我认为 99% 的用户都不是程序员，所以我没有动力去添加此功能。实际上，下载器可以在抓取后自动导出抓取结果，虽然里面的数据并非原始 json，而是下载器内部数据，但用来做数据分析也是可以的。另外下载器也提供了把某些元数据保存到 txt 文件的功能，但它不是 json 格式，而是纯文本。
因为这是专业功能，所以我同样不打算添加。但是和上面一样，你可以导出抓取结果，然后自行使用正则表达式匹配符合条件的数据，只下载它们。

xuejianxianzun / PixivBatchDownloader