antijob / neuro-parser

Other
3 stars 0 forks source link

Проверить соответствие эксепшена ошибке #264

Open Vldln opened 2 months ago

Vldln commented 2 months ago

Error parsing article raw data from URL https://www.mngz.ru/russia-world-sensation/1415673-oao-sintez-podtverzhdaet-sootvetstvie-gmp.html: Document is empty

Сейчас код обрывает выполнение, но в целом выглядит скорее как warning

    @classmethod
    def parse_article_raw_data(cls, url: str, data) -> ArticleData:
        try:
            parser = cls.registry.choose(url)
            return parser.parse_raw_data(data)
        except Exception as e:
            logger.error(f"Error parsing article raw data from URL {url}: {e}")
            raise

Так же

Task https://www.trud.ru/: https://www.trud.ru/article/15-08-2024/1640381_bombardirovschik_tu-22m3_razbilsja_pod_irkutskom.html exception: 'charmap' codec can't decode byte 0x98 in position 26873: character maps to <undefined>
Task http://www.kalmprok.ru/news: http://www.kalmprok.ru/news/8955-prokuror-respubliki-kalmykiya-roman-tyutyunik-utverdil-obvinitelnoe-zaklyuchenie-po-ugolovnomu-delu-o-khishchenii-300-mln-rublej-vydelennykh-na-prokladku-novogo-vodoprovoda-i-ochistnykh-sooruzhenij exception: value too long for type character varying(200)
Task https://ria.ru/: https://ria.ru/20240913/putin-1972429727.html exception: [Errno 32] Broken pipe
Fetching bad code for http://www.prokrm.ru/content/blogcategory/2/3/: 404
Text to normalize doesn't exist