issues
search
gengogo5
/
general_crawler
汎用クローラのプロトタイプ
0
stars
0
forks
source link
サイトトップページからクロールするプロトタイプ
#9
Open
gengogo5
opened
4 years ago
gengogo5
commented
4 years ago
概要
サイトトップページなどから記事をクロールする
仕様候補
[x] 取得内容はサイトマップクローラと同様
[x] 任意のURLリストをseedとする
[x] 記事パターンに合致したURLを取得する
[x] 除外記事パターンを指定可能にする
[x] 記事から記事を辿るのをフラグ制御する
[x] 重複urlは取得対象外
[x] UA変更
[x] パラメータ除外
[ ] 取得件数記録
[ ] 404検知
[x] 取得したURLを置換して格納する
[x] 取得したURLを置換して除外判定する
[ ] basic認証ページ
[ ] 動的ページ対応
[ ] 対象ドメインを絞る(デフォルト)
[ ] 必須パラメータのチェック
可変要素
SeedのURL(複)
対象記事パターン(複)
除外記事パターン(複)
記事-記事クロールフラグ
ユーザエージェント
備考
設定類は全て
payload
から取得する(scrapy-doを想定)
概要
サイトトップページなどから記事をクロールする
仕様候補
可変要素
備考
payload
から取得する(scrapy-doを想定)