Open gengogo5 opened 4 years ago
引数に使うJSONパターン(暫定)
{
"sitemap_url": "https://example.com/sitemap.xml",
"except_article_patterns": [
"adult",
"foobar"
],
"sitemap_patterns": [
"sitemap-pt-post-2020-.*"
]
}
gzip形式は現状でも動きそうな気がする https://docs.scrapy.org/en/latest/_modules/scrapy/spiders/sitemap.html
TODO: parse
の明示は不要な可能性あり
URLを置換して除外判定するにはSchedulerを継承して、from_crawler
をオーバライドして独自dupefilterにspiderを差し込む必要がありそう。
https://github.com/scrapy/scrapy/issues/2940
スパイダー個別の実装をする必要がないので比較的きれいな解決策に見える
概要
sitemap.xmlを元に、サイトをクロールする
仕様候補
可変要素
備考
payload
から取得する(scrapy-doを想定)