Yuukiy / JavSP

汇总多站点数据的AV元数据刮削器
GNU General Public License v3.0
2.68k stars 229 forks source link

新增getchu官网刮削,支持同人和里番 #279

Closed musnow closed 3 months ago

musnow commented 5 months ago

新增getchu官网刮削,支持同人和里番 将整理后的文件夹加入不扫描列表

还有个自定义番号的想法,可以直接使用自定义番号列表映射一个表出来,使用特定的刮削模块处理后返回即可。 因为有些fc2和getchu作者会使用自行定义的“番号”,常见于同人cosplay作品比如cosh、pnme、CP等等,并非统一、正规的“番号”。 我打算将切削模块的parse_data方法改造一下,原来的数据不变但会return movie到新的自定义模块中。 如果作者觉得可行我会提交pr

Yuukiy commented 5 months ago

dl_getchu.py 不能满足需求么

glyh commented 5 months ago

有可能不属于这个repo的范畴……

怎么说呢,这种综合性的爬虫,要做到专业就很难做到一般性。现在我们的codebase里全是各种特判,我不觉得适合提供一个通用的接口

musnow commented 5 months ago

dl_getchu.py 不能满足需求么

https://dl.getchu.com/ https://www.getchu.com/ 这两个网站属于不同体系,但是内容涵盖是相似的,可以理解成www.getchu.com是dl.getchu.com的超集。 在cosh的作者“こすっち”在dl.getchu.com主页查看缺少很多内容均在www.getchu.com有记录,比如cosh-026、cosh-035、cosh-046等。 所以在思量后提交的pr,仔细看过检索内容还发现里番内容也是类似的情况。 https://www.getchu.com/php/search.phtml?search_keyword=&list_count=30&sort=update_date&sort2=down&search_title=&search_brand=&search_person=&search_jan=&search_isbn=&genre=all&start_date=&end_date=&age=&list_type=list&search=1&search_brand_id=102684&pageID=1 https://dl.getchu.com/search/dojin_circle_detail.php?id=5166&category_id=49&set_category_flag=2

musnow commented 5 months ago

有可能不属于这个repo的范畴……

怎么说呢,这种综合性的爬虫,要做到专业就很难做到一般性。现在我们的codebase里全是各种特判,我不觉得适合提供一个通用的接口

这个想法可以理解,但是在公网bt下的内容一般都是记录这些所谓的“番号”,自行转换id的话确实也很麻烦。