禁止爬虫可能会更好

numbbbbb / githuber.info

打造最好用的GitHub人才挖掘工具

340 stars 57 forks source link

禁止爬虫可能会更好 #12

Closed kxxoling closed 9 years ago

kxxoling commented 9 years ago

对于爬虫来说，使用 JavaScript 获取数据的页面基本上毫无意义，只有几个静态页面需要爬虫。禁止爬虫的话还能减轻服务器负担。

numbbbbb commented 9 years ago

这个我不是很了解，我们用的是angularjs，要禁止哪些页面呢？

kxxoling commented 9 years ago

只需要允许这几个页面就可以了： http://githuber.info/index http://githuber.info/donate http://githuber.info/about http://githuber.info/report

wuchong commented 9 years ago

@numbbbbb angularjs 不是对SEO支持不好么，是怎么做到可以爬虫的呢？

kxxoling commented 9 years ago

@wuchong 额，我没注意是用 Angular 写的。。。不过 Google 的爬虫应该是可以运行 JS 的，比如这个搜索结果：关于 githuber.info/about 另外，想要支持其它爬虫可以用 PreRender 之类的技术，Node 有 prerenader.io，Java 有 HTMLUnit，Python 有 Phantom 等等。

bh-lay commented 9 years ago

个人认为这个issue可以关掉了。一来，对于现在的站点来说没有实质性需要做的事情。另外，支持爬虫其实很简单的，单页路由用hash可以用“#!”作为起始最为开始标志（目前仅支持google），用path的话后端针对性的吐出不同的视图即可（个人博客是这样处理的）。当然，这又是一个和本issue完全不同的另一件事。综上，关掉这个issue呗！