terratensor / feed-parser

Парсер событий kremlin.ru | mid.ru | mil.ru …
https://feed.svodd.ru
BSD 3-Clause "New" or "Revised" License
1 stars 0 forks source link

Kremlin #16

Closed audetv closed 3 months ago

audetv commented 3 months ago

Добавлен индексатор для сайта кремля. Отдельный контейнер служба, который модно запускать по крону или по необходимости из консоли. Индексер пройдет по всем ссылкам сайта кремля и спарсит все страницы в БД. Вырезаны картинки из summary и contenta

audetv commented 3 months ago

Запустил индексатор, расчётно через ~5 часов должен спарсить весь сайт кремля

iprst commented 3 months ago

Круто.

audetv commented 3 months ago

Индексация завершена. Все страницы сайта добавлены в базу. Правда расчетное время, я рассчитал при условии одного прохода, запустил и забыл. Но так не получилось, мантикора пару раз упала, при индексации, и пришлось перезапускать индексер. По хорошему надо сделать переконнект к мантикоре, как у сделано парсера, индексер и парсер ленты 2 разных сервиса. Парсер нормально обрабатывает все состояние дисконектов и не падает при перезагрузках сервисов, а индексер не доделал. Но так как индексер условно 1 раз запустил и потом забыл, он не нужен, то скорее всего и не буду специально разбирать этот сценарий. посмотрю по обстоятельствам.

В любом случае сейчас доступна все записи с сайта кремля.

audetv commented 3 months ago

После того как написал понял, что дальше же надо сделать индексер МО и МИД, и я как раз смогу решить эту задачу, по восстановлению соединения после падения мантикоры, чтобы индексер после поднятия нового контейнера с мантикорой переконнектился и продолжил работу.

iprst commented 3 months ago

сейчас доступна все записи с сайта кремля

Отлично. Работает!