antijob / neuro-parser

Other
3 stars 0 forks source link

Генерация индвидуальных регулярок при помщи ллвм #297

Open explesy opened 3 weeks ago

explesy commented 3 weeks ago

Рассмотреть возможность создания индвидуальных шаблонов или регялрок для парсинга отедльных сайтов при помощи ллвм.

Иногда случается так что методы по умолчанию не справляются с разметкой сайтов. Не могут корректно выделить тескт статьи заголовок итд. Обработка всех возможных текстов при помощи ллвм слишком ресурсозатратна при этом не гарантирует отстуствия галлюцинаний в текстах после обработки. Но при этом мы можем отдавать страницы сайтов для генерации нужных регулярных выражений, на основе которых в дальнейшем и будет осуществляться парсинг.