issues
search
gengogo5
/
general_crawler
汎用クローラのプロトタイプ
0
stars
0
forks
source link
RSSからクロールするプロトタイプ
#11
Open
gengogo5
opened
4 years ago
gengogo5
commented
4 years ago
概要
RSSから記事をクロールする
仕様候補
[x] 取得内容は他のクローラと同様
[x] 任意のURLリストをseedとする
[x] 繰り返しタグとURLを持つノードを必須指定で受け取る
[x] 除外記事パターンを指定可能にする
[x] 重複urlは取得対象外
[x] UA変更
[x] パラメータ除外
[ ] 取得件数記録
[ ] 404検知
[x] 取得したURLを置換して格納する
[x] 取得したURLを置換して除外判定する
[ ] basic認証ページ
[ ] 動的ページ対応
[ ] 必須パラメータのチェック
可変要素
SeedのURL(複)
除外記事パターン(複)
ユーザエージェント
備考
設定類は全て
payload
から取得する(scrapy-doを想定)
概要
RSSから記事をクロールする
仕様候補
可変要素
備考
payload
から取得する(scrapy-doを想定)