Closed audetv closed 3 months ago
Заметил, что американские сайты новостей из алфавитного супа стали запрещать доступ к страницам для автоматических систем, и не позволяют сохранять кэш в гугле или копии страниц в архиве. Некоторые порталы зачищены из архива.
Интересно. Если так, то значит, что очень не хотят чтобы их ложь была вскрыта, даже могут оправдывать всякими законами об авторском праве и прочем эксклюзиве, и другой лапшой. Целые суповые департаменты трудятся над сокрытием информации.
Можно указывать в заголовках запроса наименование клиента от которого совершается запрос. И можно указать любое имя, и даже прикинуться гуглом. Но это пока за дело не взялись специалисты по лапше и супу, которые когда было надо придумали технологию natural language с ИИ для осуществления цензуры и регулировки общественного мнения. А уж с такой простой задачей как анализ запросов и выявления по поведению автоматических систем, которые хотят получить доступ к их информации, я думаю приложат не меньше сил да и задача намного проще, чем разработка natursal language. Технически справятся) не сомневаюсь, что помножат свою лапшу на ноль.
Не хотят. Притом я обнаружил это случайно, при просмотре одного из аналитических обзоров, и на всякий случай сделал скриншот — автор обсуждает статью в WP и показывает её на экране, я захожу на эту страницу на следующий день, а на ней уже другой текст, другие заголовки, хочу посмотреть в архиве — страница удалена, все запросы из краулера «оранжевые», захожу в кэш гугла, страница недоступна. Для примера опишу тогда в теме как будет подходящий момент.
Подменять клиента можно, например я когда пользуюст WinHTTrack он это и делает, можно задать вручную. Но и для него существует масса проблем, например сайты вычисляют по удельному количеству открытых страниц в минуту и банят.
Теперь crawler возвращает ошибку, если соединение было разорвано на обрабатываемом сайте.
Улучшена функция visitUrl(), теперь функция возвращает ошибку visitUrl вызывает crawler, который парсит контент по ссылке, если crawler вернет ошибку, например в следствии read: connection reset by peer, соединение с сайтом разорвалось, то функция возвращает ошибку и происходит выход из обработки задачи, таким образом в следующий проход парсера, эта ссылка снова будет обработана и при отсутствии ошибки при обработке произойдет запись или обновление в БД. если crawler вернул новую спарсенную entry, то функция возвращает обновленную entry и происходит запись или обновление в мантикоре.