danilshik / parsers_sites

0 stars 0 forks source link

moszub.ru: URL отзывов #6

Closed nxbx closed 5 years ago

nxbx commented 5 years ago

У всех отзывов не верный URL: http://moszub.ru/clinics/stomatologicheskaya-poliklinika-65/?table=clinics&id=356&cp=4

danilshik commented 5 years ago

Исправлено a785b0e6c0768b3936343ae00d2e6f583a117354

nxbx commented 5 years ago

в начале Some characters could not be decoded, and were replaced with REPLACEMENT CHARACTER. в комментах \\\\\\\"лучше знает\\\\\\\" \\\\r\\\\n

danilshik commented 5 years ago

Some characters could not be decoded, and were replaced with REPLACEMENT CHARACTER - проблема синтаксического анализатора

danilshik commented 5 years ago

Исправлено /// 6c65900df80eae0faa8e5a07539aab30f3b26178

nxbx commented 5 years ago

что за анализатор? последситвия какие этой проблемы?

danilshik commented 5 years ago

Ну парсер который разбирает ответ от сервера и преобразует в DOM - дерево, по которому мы уже ищем элементы. Возможно при преобразовании этот парсер не смог однозначно разобрать ответ, вот и выдал предупреждение об этом

danilshik commented 5 years ago

А возникает она, либо сервер не до отправил данные, либо web - программист который писал сайт, не делал закрывающие элементы. Например

-

. Обычный браузер исправляет эти ошибки на ходу, а библиотека может и не справиться, либо вообще в другое место засунуть элемент