Closed skyone-bot closed 6 months ago
保存原始 json 数据,而且,你大概是想每个作品分别保存一个 json 文件?我认为你可以使用其他爬虫工具来操作。这对普通用户来说没什么意义,因为我认为 99% 的用户都不是程序员,所以我没有动力去添加此功能。 实际上,下载器可以在抓取后自动导出抓取结果,虽然里面的数据并非原始 json,而是下载器内部数据,但用来做数据分析也是可以的。 另外下载器也提供了把某些元数据保存到 txt 文件的功能,但它不是 json 格式,而是纯文本。
因为这是专业功能,所以我同样不打算添加。但是和上面一样,你可以导出抓取结果,然后自行使用正则表达式匹配符合条件的数据,只下载它们。
你需要什么功能?
1. 保存作品元数据
我希望实现的功能和 #310 基本一致,但通过标题和tag模糊匹配做起来确实会增加很大的复杂度,所以我有另一个建议:在保存作品的同时,将作品的元数据也保存下来
例如,
https://www.pixiv.net/ajax/illust/${pid}
的响应如下:只需要以 PID 为键,以
body
段为值,保存到一个json
文件里,后续想进行任何操作都可以自行编程解决。我想实现这个功能会简单一些。
2. 使用正则表达式过滤标题
理论上只要实现上一个功能后,作品下载下来自行处理就行了,但是,当某些画师特别高产时,想把ta的作品全下载下来需要很长时间。
例如我想把这位画师的 Blue Archive 100 天挑战下载下来,下了4页的作品,用了 0.8GB...所以使用正则表达式过滤标题虽然不是必要的,但会更加方便。
最后,非常感谢您开发出如此方便的拓展🙏