Рассмотреть возможность создания индвидуальных шаблонов или регялрок для парсинга отедльных сайтов при помощи ллвм.
Иногда случается так что методы по умолчанию не справляются с разметкой сайтов. Не могут корректно выделить тескт статьи заголовок итд. Обработка всех возможных текстов при помощи ллвм слишком ресурсозатратна при этом не гарантирует отстуствия галлюцинаний в текстах после обработки. Но при этом мы можем отдавать страницы сайтов для генерации нужных регулярных выражений, на основе которых в дальнейшем и будет осуществляться парсинг.
Рассмотреть возможность создания индвидуальных шаблонов или регялрок для парсинга отедльных сайтов при помощи ллвм.
Иногда случается так что методы по умолчанию не справляются с разметкой сайтов. Не могут корректно выделить тескт статьи заголовок итд. Обработка всех возможных текстов при помощи ллвм слишком ресурсозатратна при этом не гарантирует отстуствия галлюцинаний в текстах после обработки. Но при этом мы можем отдавать страницы сайтов для генерации нужных регулярных выражений, на основе которых в дальнейшем и будет осуществляться парсинг.