lucasxlu / LagouJob

Data Analysis & Mining for lagou.com
https://www.zhihu.com/question/36132174/answer/94392659
Apache License 2.0
258 stars 129 forks source link

拉钩某些岗位没有城市字段 #8

Closed mengyilangan closed 6 years ago

mengyilangan commented 7 years ago
  1. 拉钩的某些岗位没有城市字段,建议做一个兼容 2.run lagou_spider.py 时是直接运行的改页面定义的抓取字段,而没有读取config下面的job,这个是需要什么特殊处理
lucasxlu commented 7 years ago

是的,XML 是最原始的demo,后来发现没有必要,就没去维护了,直接在源代码里修改list就行了……城市字段我会完善的,感谢建议

mengyilangan commented 7 years ago

感谢,关于unicode 编码这个我不是太懂: image 直接运行,line123行提示sheet_name必须是unicode; 在每一个中文面前加上u,直接提示 parse.quote()错误,你有什么好的办法吗?

lucasxlu commented 7 years ago

你好,为尽量不修改源代码,我已在新版本中将joblist分离到XML文件中了。parse.quote是拼接URL的时候用到的,我这边一切正常,没有任何错误。你可以再检查一下是否按README.md上的installation guide完成的呢~