Closed wanghaisheng closed 9 years ago
https://github.com/commoncrawl https://github.com/norvigaward 利用commoncrawl提供的数据做一些聚类分析的例子
1、能不能从http://www.twitch.tv/爬取一份游戏语料呢 2、看起来只要爬取网站文章的正文,使用该TextGrocery就可以对其打标签,比如说是分别是哪些游戏相关的文章,与哪些人、公司相关
目前药品数据库的构建进行中
Selenium+Chrome Driver在爬虫里已经用了蛮久了,适当模拟真人操作效果,再结合 OCR,效果极佳。 juhezhishu.com 里面的百度指数就是这么来的 [[笑cry]] 但是还是有反爬方案,比如 Distil 会不允许注入 js
目前ips的虚拟打印技术能解决那些需要打印的业务数据的捕获 除此之外的数据呢 一类是CS客户端形式的 一类是BS web界面的 如何获取这两类数据呢 当然 像集成平台一样去读数据库自然是最低成本的方法
https://github.com/spikesoffshore/Isla_Automation
https://github.com/Felix-P-Code/scrapyweixi
scrapy+selenium+phantomjs做的微信采集,遇见验证码发到打码平台
https://github.com/spikesoffshore/Spikes_Automation/tree/master
百姓网九宫格验证测试
https://github.com/zhr0319/Office/tree/master/%E7%99%BE%E5%A7%93%E7%BD%91%E4%B9%9D%E5%AE%AB%E6%A0%BC%E6%B5%8B%E8%AF%95
https://github.com/rdmpage/ocr-correction
https://github.com/congsang/Other/tree/master
1、能不能做一张热点图,显示全国各地的水质情况 怎么样拿到这样的api
可参考 https://github.com/bsspirit/chinaWeatherDemo/tree/app
2、关键词 水质日报 环保局