NewsScrapy
基于scrapy、selenium、beautifulsoup、pyvirtualdisplay的新闻爬虫
问题:
一财网:js生成cookie,无法直接访问,使用selenium解决;
中国经营报:直接访问会报521错误,js生成cookie后重定向才能得到首页,phantomjs并不能解决这个重定向,但Firefox可以解决。
为了不让浏览器打开,用了headless-firefox。具体教程参考:http://scraping.pro/use-headless-firefox-scraping-linux/ 使用selenium和scrapy结合代码可看yicai_spider.py
包括列表有:
公众号 帐号
- 中国民航网 caacnews-officials
- 里屋里酒店咨讯 liwuli-hotels
- 航旅同行 travelskygds
- 航企哪些事儿 ThingsOfAirlines
- 航旅IT圈子 icarnoc
- 民航资源网 bvnagzine
- 商业价值 wow36kr
- 36氪 huxiu-com
- 虎嗅网 guifabucom
- 硅发布 pinchain
- 品橙旅游 wepingwest
- pingwest中文网 GP4008202018
- 智慧旅行 ctcnn1
- 劲旅网 dotours
- 旅游圈 meadin1
- 迈点网 thepapernews
- 澎湃新闻 qqtech
- 腾讯科技 zglybs
- 旅界 lvjienews
- 旅游商业观察 ph1240888257
- B座12楼 B1-12F
- BBTtravel BBTtravel
- 华丽志 LuxeCO
- 在线旅讯 otadaily
- 酒店内参 ehotelier
- 星硕袁学娅专栏