dkvirus / py-novel

看小说。服务端:【Python+Flask+Mariadb】、【Node+Express+Mariadb】;客户端:【Vue+iview】、【微信小程序】、【Android原生开发(Java)】、【Flutter+Dio】、【Taro+Typescript】
MIT License
129 stars 50 forks source link

笔趣阁增加反爬虫机制,导致网页爬取失败 #29

Closed dkvirus closed 5 years ago

dkvirus commented 5 years ago

问题

笔趣阁增加反爬虫机制,导致网页爬取失败。查看日志,爬到的内容如下:

<html><head><title>504</title></head><body><h1>Bad GateWay</h1></body></html>

解决

爬虫时增加 headers 的 User-Agent 参数,伪装成浏览器客户端发出的请求。

request({
  url: target_url,
  encoding: null,
  headers: {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.37 70.100 Safari/537.36'
  }
}, function (err, result, body) {
  if (err) return res.json({ code: '9999', message: err });
  // ....
})