gengogo5 / general_crawler

汎用クローラのプロトタイプ
0 stars 0 forks source link

ログインが必要なサイトに対応する #37

Open gengogo5 opened 4 years ago

gengogo5 commented 4 years ago
gengogo5 commented 4 years ago

公式のサンプル実装 https://docs.scrapy.org/en/latest/topics/request-response.html?highlight=login#using-formrequest-from-response-to-simulate-a-user-login

start_urlsにログインページを設定しているが、できればやりたくない。 パラメータで受け取るstart_urlsはあくまで記事を辿るseedのurlの居場所にしておきたい。

start_urlsの先頭要素にログインURLを挿入すれば、1発目のリクエストはloginフォームに飛ぶはずだが・・・

gengogo5 commented 4 years ago

アクロバティックだが、認証有りフラグをパラメータに持たせてstart_urlsを差し替えるという手段もありそう。

gengogo5 commented 4 years ago

TODO

formログインはcrawlspiderでのみ動作確認済み

とりあえずmasterに入れて、ダメだったら直す