code4craft / webmagic

A scalable web crawler framework for Java.
http://webmagic.io/
Apache License 2.0
11.37k stars 4.18k forks source link

page status code error 404时, 没有进入process #1164

Closed PosiedChoss closed 2 months ago

PosiedChoss commented 3 months ago

在编写一个小功能的时候, 发现了这个问题

public class GetUserInfo implements PageProcessor {
  private static final Logger log = LoggerFactory.getLogger(GetUserInfo.class);
  private Site site = Site.me()
  @Override
  public void process(Page page) {
      log.info("调试信息" + page.getStatusCode());
  }
  @Override
  public Site getSite() {
      return site;
  }
}

当页面可正常获取数据时, 日志的输出是这样的 image 而当页面返回404时, 调试信息却没有正常输出 image

还是说有其他的办法专门处理错误码的情况, 如果有, 劳烦大佬们告知, 感谢