zhegexiaohuozi / SeimiCrawler

一个简单、敏捷、分布式的支持SpringBoot的Java爬虫框架;An agile, distributed crawler framework.
http://seimicrawler.org
Apache License 2.0
1.98k stars 679 forks source link

startUrls如果爬取的网站的Url不正确,请问怎么捕获这个异常然后自己处理呢? #45

Closed zhengb0 closed 5 years ago

zhengb0 commented 5 years ago

在调用handleErrorRequest之前就已经抛出了四次异常,请问这个异常抛出之前能否自己捕获然后进行处理呢?

zhegexiaohuozi commented 5 years ago

文档:http://wiki.seimicrawler.org/#a849b0c550071525003d5ab6d9b8d1e0 image

zhengb0 commented 5 years ago

我明白了,只能通过日志记录的方式来打印该异常,然后通过handleErrorRequest方法来实现自己的业务逻辑,并不能catch住异常。

zhegexiaohuozi commented 5 years ago

不是,你可以覆盖自定义实现,文档说的还不明白?

zhegexiaohuozi commented 5 years ago

记日志是默认的基本实现……

zhengb0 commented 5 years ago

嗯,我的意思就是默认的是只能记录日志,重写该方法的话可以实现自己的业务逻辑,但是日志是都会打印的。 我的意思是不能catch住异常不让他打印日志。

zhegexiaohuozi commented 5 years ago

覆盖后日志不会打印的

zhegexiaohuozi commented 5 years ago

覆盖后看你自己的实现

zhengb0 commented 5 years ago

image 会有异常信息抛出

zhengb0 commented 5 years ago

不好意思老师,我的意思可能表达错误了。 确实handleErrorRequest的日志不打印了,但是还会有异常信息抛出,我想问的问题是如何把这个异常信息catch住,不让他打印出来。

zhegexiaohuozi commented 5 years ago

这个不接受catch,是处理器扔出来的,你不想看日志,可以把处理器类的日志禁用