Closed audetv closed 3 months ago
Запустил индексатор, расчётно через ~5 часов должен спарсить весь сайт кремля
Круто.
Индексация завершена. Все страницы сайта добавлены в базу. Правда расчетное время, я рассчитал при условии одного прохода, запустил и забыл. Но так не получилось, мантикора пару раз упала, при индексации, и пришлось перезапускать индексер. По хорошему надо сделать переконнект к мантикоре, как у сделано парсера, индексер и парсер ленты 2 разных сервиса. Парсер нормально обрабатывает все состояние дисконектов и не падает при перезагрузках сервисов, а индексер не доделал. Но так как индексер условно 1 раз запустил и потом забыл, он не нужен, то скорее всего и не буду специально разбирать этот сценарий. посмотрю по обстоятельствам.
В любом случае сейчас доступна все записи с сайта кремля.
После того как написал понял, что дальше же надо сделать индексер МО и МИД, и я как раз смогу решить эту задачу, по восстановлению соединения после падения мантикоры, чтобы индексер после поднятия нового контейнера с мантикорой переконнектился и продолжил работу.
сейчас доступна все записи с сайта кремля
Отлично. Работает!
Добавлен индексатор для сайта кремля. Отдельный контейнер служба, который модно запускать по крону или по необходимости из консоли. Индексер пройдет по всем ссылкам сайта кремля и спарсит все страницы в БД. Вырезаны картинки из summary и contenta