groupbwt / scrapy-boilerplate

Scrapy project boilerplate done right
MIT License
42 stars 25 forks source link

Feature/fb 405 #61

Closed LyricalToxic closed 2 years ago

LyricalToxic commented 3 years ago
KristobalJunta commented 3 years ago

Спасибо, буду смотреть!

tyorn commented 3 years ago

есть пару моментов, которые хотелось бы обсудить:

  1. правильно понял, что обновление статуса в success происходит при обработке item'a, а в error при получении http ошибки? тогда как обрабатывается случай, если страница успешно загружена, но по какой-то причине item не был сгенерирован? (например получили 200 после редиректа на другую страницу - ошибки/главную)
  2. логика получения тасков из базы. Правильно понимаю, что раз в период (1 секунда) делается запрос на добавление 1-го таска в планировщик, а когда паук попадает в idle состояние, то он делает выборку следующей пачки тасков из базы?

немного оффтопа по rmq: relieve используется в нем в качестве обозначения тасков, которые уже обработаны и должны быть ack'нуты. здесь же если я правильно понял так обозначается таск перед тем как начать парситься вообще. из-за этого у меня возникает легкий диссонанс