hect0x7 commented 1 year ago

✨提Issue注意✨

这个Issue的主题是 使用Github Actions下载禁漫本子
提Issue之前请先爬一些楼层和搜索，雷同的问题不用重复提
和本Issue主题无关的BUG请单独开Issue

✨最新功能提醒✨

之前需要编辑文件提交才能触发Github Actions，现在不需要啦！

一步到位，支持直接提交本子id
使用链接：https://github.com/你的用户名/JMComic-Crawler-Python/actions/workflows/download_dispatch.yml

hect0x7 commented 1 year ago

Github Actions过往问题反馈: https://github.com/hect0x7/JMComic-Crawler-Python/issues/2

jkdfzx commented 1 year ago

请问下载路径rule这样写哪边问题? 试了下，好像没有依照路径存放

hect0x7 commented 1 year ago

请问下载路径rule这样写哪边问题? 试了下，好像没有依照路径存放

我试了下，好像没问题呀？你确定你下载时候用的option是你自定义的option吗？我看你的输出，好像用的是默认option的Bd_Ptitle.

jkdfzx commented 1 year ago

哦，抱歉，是我搞错了，谢谢

aaaxukun commented 1 year ago

最近用github好像下不了了

hect0x7 commented 1 year ago

最近用github好像下不了了

现在可以了，重新fork一下

aaaxukun commented 1 year ago

谢谢

aaaxukun commented 1 year ago

最近好像用不了了

buiawpkgew1 commented 1 year ago

最近好像用不了了

好像是这个问题https://github.com/tonquer/JMComic-qt/issues/77

hect0x7 commented 1 year ago

最近好像用不了了

可以用，但你需要重新fork一下我的仓库，你的仓库有点老了，因为option不兼容没法用，重新fork一下就好啦

jzl543098871 commented 11 months ago

尝试了一下实例中的“搜索并下载本子” 然后把option的rule修改为'Bd_Aauthor_Atitle'

结果非常奇怪，我用的tag是作者tag'宮元一佐"

123

在输出根目录下给我分出了足足11个子文件夹出来，我看禁漫网址上作者都是对的“/album/482594/宮元一佐-はーとまーくもっと多め”举个例子，基本都是宮元一佐-（后面是标题或者所属杂志），这是怎么回事呢

jzl543098871 commented 11 months ago

感觉自定义成Bd_tag__Atitle应该比较能达到我想要的效果？我看了下

jzl543098871 commented 11 months ago

另外我看了下 client里面关于搜索的部分，教程中是使用的main_tag=3的tag搜索，我试着改成了站内搜索，因为使用tag搜索的话，很多时候结果会存在漏的，虽然给出的html链接已经变成了【html】https://18comic.vip/search/photos?main_tag=0&search_query=宮元一佐&page=1&o=mr&t=a，但是结果还是和之前使用tag搜索一样，只有20来个结果我自己乱改的示例：

from jmcomic import *

option = create_option('option.yml')
client = option.new_jm_client()

site = '宮元一佐'
# 站内搜索main_tag=0。
# 搜索第一页。
page: JmSearchPage = client.search_site(site, page=1)

aid_list = []

for aid, atitle, site_list in page.iter_id_title_tag():  # 使用page的iter_id_title_tag迭代器
    if site in site_list:
        print(f'[标签/{site}] 发现目标: [{aid}]: [{atitle}]')
        aid_list.append(aid)

#download_album(aid_list, option)

程序输出结果是这样的：

python.exe C:\Users\子夜\PycharmProjects\JM\searh.py 
2023-12-03 03:17:10:【plugin.invoke】调用插件: [login]
2023-12-03 03:17:10:【html】https://18comic.vip/login
2023-12-03 03:17:11:【plugin.login】登录成功
2023-12-03 03:17:11:【html】https://18comic.vip/search/photos?main_tag=0&search_query=宮元一佐&page=1&o=mr&t=a
[标签/宮元一佐] 发现目标: [123246]: [(C96)[NOSEBLEED (宮元一佐)] はーとまーく多め。2 [DL版]]
[标签/宮元一佐] 发现目标: [122014]: [Heart Mark Oome. 2]
[标签/宮元一佐] 发现目标: [99700]: [[宮元一佐][ある貴族の幸せ(ガールズフォーム Vol.18)]]
[标签/宮元一佐] 发现目标: [99608]: [(C95) [NOSEBLEED (宮元一佐)] はーとまーく多め。 [兔司姬漢化組]]
[标签/宮元一佐] 发现目标: [99541]: [Heart Mark Oome.]
[标签/宮元一佐] 发现目标: [99542]: [Aru Kijoku No Shiawase]
[标签/宮元一佐] 发现目标: [89346]: [(C92) [NOSEBLEED (宮元一佐)] りりむすきっす [中國翻訳]-(C92) [NOSEBLEED (Miyamoto Issa)] LiLiM&#039;s kiss [Chinese] [CE家族社]]
[标签/宮元一佐] 发现目标: [89136]: [[CE家族社](C86) [NOSEBLEED (宮元一佐)] そにコン 2 (すーぱーそに子)]
[标签/宮元一佐] 发现目标: [89135]: [[CE家族社](C92) [NOSEBLEED (宮元一佐)] りりむすきっす]
[标签/宮元一佐] 发现目标: [78981]: [[小付個人漢化][宮元一佐]ラブストーリー LOVE STORY(ガールズフォーム Vol.16)]
[标签/宮元一佐] 发现目标: [64658]: [(C85) (同人誌) [NOSEBLEED (宮元一佐)] そにコン (すーぱーそに子)]
[标签/宮元一佐] 发现目标: [64349]: [[CE家族社](C85) [NOSEBLEED (宮元一佐)] そにコン (すーぱーそに子)]
[标签/宮元一佐] 发现目标: [45871]: [[宮元一佐][姉弟はなかよし(ガールズフォーム Vol.09)]]
[标签/宮元一佐] 发现目标: [37778]: [[NOSEBLEED (宮元一佐)] アイコン (アイドルマスター シンデレラガールズ)]
[标签/宮元一佐] 发现目标: [37619]: [[宮元一佐][しーくれっと　しすたー(ガールズフォーム Vol.08)]]
[标签/宮元一佐] 发现目标: [37337]: [[宮元一佐] 日陰の園へようこそ (ガルズフォム Vol.12)]
[标签/宮元一佐] 发现目标: [30295]: [[宮元一佐][Cover illust αddition(ガールズフォームVol.05)]]
[标签/宮元一佐] 发现目标: [29232]: [[宮元一佐] 快落の夢 (Girls forM Vol.13)]
[标签/宮元一佐] 发现目标: [28817]: [[宮元一佐] ●REC しーくれっとしすたー (ガールズフォームVol.08) [喪屍漢化]]
[标签/宮元一佐] 发现目标: [26925]: [[宮元一佐][いいなりのすゝめ(ガールズフォーム Vol.14)]]
[标签/宮元一佐] 发现目标: [18888]: [[丧尸汉化] [宮元一佐] いいなりのすゝめ (ガールズフォーム Vol.14)]
[标签/宮元一佐] 发现目标: [11509]: [[宮元一佐][日陰の園へようこそ(Girls forM Vol.12)]]
[标签/宮元一佐] 发现目标: [9771]: [[宮元一佐][ラブストーリー LOVE STORY(ガールズフォーム Vol.16)]]
[标签/宮元一佐] 发现目标: [9611]: [[宮元一佐][快落の夢(Girls forM Vol.13)]]
[标签/宮元一佐] 发现目标: [4722]: [[宮元一佐][快落の夢(ガールズフォーム Vol.13)]]

Process finished with exit code 0

我注释掉了下载部分，因为就像看看搜索结果到底是啥，我觉得应该是‘page.iter_id_title_tag’这个需要修改，但是不知道怎么改，写的是在page里，我找了找没找到。。。。假如我想使用站内搜索+包含或排除或并集搜索的话，示例代码该怎么修改呢，示例里面是单关键字的搜索，多关键字包含或排除或并集该怎么写我自己摸索了下不对。。。

hect0x7 commented 11 months ago

/album/482594/宮元一佐-はーとまーくもっと多め

这个问题有两个原因：

禁漫本子的作者不准确
你用的是search_tag而不是search_author

第一个问题显而易见，看看禁漫的网页就知道了

这些本都是search_tag搜出来的，但是《作者：》标签都不是【宮元一佐】。能搜出来是因为《標籤：》有【宮元一佐】。但是下载的时候，Aauthor就是取《作者：》标签的值，于是就出问题了。

第二个问题，如果你用search_author，可以保证《作者：》标签是【宮元一佐】，但是可能会漏一些本子

hect0x7 commented 11 months ago

另外我看了下 client里面关于搜索的部分，教程中是使用的main_tag=3的tag搜索，我试着改成了站内搜索，因为使用tag搜索的话，很多时候结果会存在漏的，虽然给出的html链接已经变成了【html】https://18comic.vip/search/photos?main_tag=0&search_query=宮元一佐&page=1&o=mr&t=a，但是结果还是和之前使用tag搜索一样，只有20来个结果我自己乱改的示例：

from jmcomic import *

option = create_option('option.yml')
client = option.new_jm_client()

site = '宮元一佐'
# 站内搜索main_tag=0。
# 搜索第一页。
page: JmSearchPage = client.search_site(site, page=1)

aid_list = []

for aid, atitle, site_list in page.iter_id_title_tag():  # 使用page的iter_id_title_tag迭代器
    if site in site_list:
        print(f'[标签/{site}] 发现目标: [{aid}]: [{atitle}]')
        aid_list.append(aid)

#download_album(aid_list, option)

程序输出结果是这样的：

python.exe C:\Users\子夜\PycharmProjects\JM\searh.py 
2023-12-03 03:17:10:【plugin.invoke】调用插件: [login]
2023-12-03 03:17:10:【html】https://18comic.vip/login
2023-12-03 03:17:11:【plugin.login】登录成功
2023-12-03 03:17:11:【html】https://18comic.vip/search/photos?main_tag=0&search_query=宮元一佐&page=1&o=mr&t=a
[标签/宮元一佐] 发现目标: [123246]: [(C96)[NOSEBLEED (宮元一佐)] はーとまーく多め。2 [DL版]]
[标签/宮元一佐] 发现目标: [122014]: [Heart Mark Oome. 2]
[标签/宮元一佐] 发现目标: [99700]: [[宮元一佐][ある貴族の幸せ(ガールズフォーム Vol.18)]]
[标签/宮元一佐] 发现目标: [99608]: [(C95) [NOSEBLEED (宮元一佐)] はーとまーく多め。 [兔司姬漢化組]]
[标签/宮元一佐] 发现目标: [99541]: [Heart Mark Oome.]
[标签/宮元一佐] 发现目标: [99542]: [Aru Kijoku No Shiawase]
[标签/宮元一佐] 发现目标: [89346]: [(C92) [NOSEBLEED (宮元一佐)] りりむすきっす [中國翻訳]-(C92) [NOSEBLEED (Miyamoto Issa)] LiLiM&#039;s kiss [Chinese] [CE家族社]]
[标签/宮元一佐] 发现目标: [89136]: [[CE家族社](C86) [NOSEBLEED (宮元一佐)] そにコン 2 (すーぱーそに子)]
[标签/宮元一佐] 发现目标: [89135]: [[CE家族社](C92) [NOSEBLEED (宮元一佐)] りりむすきっす]
[标签/宮元一佐] 发现目标: [78981]: [[小付個人漢化][宮元一佐]ラブストーリー LOVE STORY(ガールズフォーム Vol.16)]
[标签/宮元一佐] 发现目标: [64658]: [(C85) (同人誌) [NOSEBLEED (宮元一佐)] そにコン (すーぱーそに子)]
[标签/宮元一佐] 发现目标: [64349]: [[CE家族社](C85) [NOSEBLEED (宮元一佐)] そにコン (すーぱーそに子)]
[标签/宮元一佐] 发现目标: [45871]: [[宮元一佐][姉弟はなかよし(ガールズフォーム Vol.09)]]
[标签/宮元一佐] 发现目标: [37778]: [[NOSEBLEED (宮元一佐)] アイコン (アイドルマスター シンデレラガールズ)]
[标签/宮元一佐] 发现目标: [37619]: [[宮元一佐][しーくれっと　しすたー(ガールズフォーム Vol.08)]]
[标签/宮元一佐] 发现目标: [37337]: [[宮元一佐] 日陰の園へようこそ (ガルズフォム Vol.12)]
[标签/宮元一佐] 发现目标: [30295]: [[宮元一佐][Cover illust αddition(ガールズフォームVol.05)]]
[标签/宮元一佐] 发现目标: [29232]: [[宮元一佐] 快落の夢 (Girls forM Vol.13)]
[标签/宮元一佐] 发现目标: [28817]: [[宮元一佐] ●REC しーくれっとしすたー (ガールズフォームVol.08) [喪屍漢化]]
[标签/宮元一佐] 发现目标: [26925]: [[宮元一佐][いいなりのすゝめ(ガールズフォーム Vol.14)]]
[标签/宮元一佐] 发现目标: [18888]: [[丧尸汉化] [宮元一佐] いいなりのすゝめ (ガールズフォーム Vol.14)]
[标签/宮元一佐] 发现目标: [11509]: [[宮元一佐][日陰の園へようこそ(Girls forM Vol.12)]]
[标签/宮元一佐] 发现目标: [9771]: [[宮元一佐][ラブストーリー LOVE STORY(ガールズフォーム Vol.16)]]
[标签/宮元一佐] 发现目标: [9611]: [[宮元一佐][快落の夢(Girls forM Vol.13)]]
[标签/宮元一佐] 发现目标: [4722]: [[宮元一佐][快落の夢(ガールズフォーム Vol.13)]]

Process finished with exit code 0

我注释掉了下载部分，因为就像看看搜索结果到底是啥，我觉得应该是‘page.iter_id_title_tag’这个需要修改，但是不知道怎么改，写的是在page里，我找了找没找到。。。。假如我想使用站内搜索+包含或排除或并集搜索的话，示例代码该怎么修改呢，示例里面是单关键字的搜索，多关键字包含或排除或并集该怎么写我自己摸索了下不对。。。

多关键字搜索和禁漫网站是一样的

例如：

page: JmSearchPage = self.client.search_tag('+无修正 +中文 -全彩')

hect0x7 commented 11 months ago

另外我看了下 client里面关于搜索的部分，教程中是使用的main_tag=3的tag搜索，我试着改成了站内搜索，因为使用tag搜索的话，很多时候结果会存在漏的，虽然给出的html链接已经变成了【html】

其实你把if语句去掉就行了，我看了下站内搜索的搜索页，应该能保证都是【宮元一佐】这个作者的本子。下面你的需求就变成了：怎么保证下载本子时，强制作者=【宮元一佐】

下面给出一个应该能解决你问题的代码示例：

from jmcomic import *

option = create_option('option.yml')
client = option.new_jm_client()

author = '宮元一佐'

def search():
    # 站内搜索main_tag=0。
    # 搜索第一页。
    page: JmSearchPage = client.search_site(author, page=1)
    # 直接返回这一页的所有本子id
    return list(page.iter_id())

def download(id_list):
    # 自定义author字段的解析：一律使用'宮元一佐'
    JmModuleConfig.AFIELD_ADVICE['author'] = lambda album: author
    download_album(id_list, option)

download(search())

效果：

hect0x7 commented 11 months ago

尝试了一下实例中的“搜索并下载本子” 然后把option的rule修改为'Bd_Aauthor_Atitle'

结果非常奇怪，我用的tag是作者tag'宮元一佐"

在输出根目录下给我分出了足足11个子文件夹出来，我看禁漫网址上作者都是对的“/album/482594/宮元一佐-はーとまーくもっと多め”举个例子，基本都是宮元一佐-（后面是标题或者所属杂志），这是怎么回事呢

最后，提醒一下，你的问题不应该放在这个issue，而应该新开一个issue，这样方便讨论，能让别人参考到你的问题