サイトマップからクロールするプロトタイプ

gengogo5 commented 4 years ago

概要

sitemap.xmlを元に、サイトをクロールする

仕様候補

[x] sitemap.xmlをseedとする
[ ] 複数のsitemap.xmlをseedに設定できる
[x] サイトマップインデックスも対応可
- パターンに合致したサイトマップを辿る
[x] 記事パターンに合致したURLの先を取得する
- 除外パターンを登録する方式にした(ホワイトリストは需要少)
[x] 取得した記事はgzip圧縮して格納する
[x] 記事のタイトルを格納する
[x] 記事パターン複数対応
[ ] gz形式のサイトマップに対応
[x] 重複urlは取得対象外
[x] UA変更
[x] パラメータ除外
[ ] 取得件数記録
[ ] 404検知
[x] 取得したURLを置換して格納する
[x] 取得したURLを置換して除外判定する
[ ] basic認証ページ
[ ] 動的ページ対応

可変要素

Seedのサイトマップ(単)
対象サイトマップパターン(複)
除外記事パターン(複)
ユーザエージェント

備考

設定類は全てpayloadから取得する(scrapy-doを想定)

gengogo5 commented 4 years ago

引数に使うJSONパターン(暫定)


{
    "sitemap_url": "https://example.com/sitemap.xml",
    "except_article_patterns": [
        "adult",
        "foobar"
    ],
    "sitemap_patterns": [
        "sitemap-pt-post-2020-.*"
    ]
}

gengogo5 commented 4 years ago

gzip形式は現状でも動きそうな気がする https://docs.scrapy.org/en/latest/_modules/scrapy/spiders/sitemap.html

gengogo5 commented 4 years ago

重複除外の参考記事 https://anopara.net/2017/02/26/%E3%81%96%E3%81%A3%E3%81%8F%E3%82%8A%E7%90%86%E8%A7%A3%E3%81%99%E3%82%8Bscrapy%E3%81%AE%E4%BD%BF%E3%81%84%E6%96%B9/

gengogo5 commented 4 years ago

TODO: parseの明示は不要な可能性あり

gengogo5 commented 4 years ago

URLを置換して除外判定するにはSchedulerを継承して、from_crawlerをオーバライドして独自dupefilterにspiderを差し込む必要がありそう。

https://github.com/scrapy/scrapy/issues/2940

スパイダー個別の実装をする必要がないので比較的きれいな解決策に見える

gengogo5 / general_crawler

サイトマップからクロールするプロトタイプ #7

概要

仕様候補

可変要素

備考