numbbbbb / githuber.info

打造最好用的GitHub人才挖掘工具
340 stars 57 forks source link

禁止爬虫可能会更好 #12

Closed kxxoling closed 9 years ago

kxxoling commented 9 years ago

对于爬虫来说,使用 JavaScript 获取数据的页面基本上毫无意义,只有几个静态页面需要爬虫。禁止爬虫的话还能减轻服务器负担。

numbbbbb commented 9 years ago

这个我不是很了解,我们用的是angularjs,要禁止哪些页面呢?

kxxoling commented 9 years ago

只需要允许这几个页面就可以了: http://githuber.info/index http://githuber.info/donate http://githuber.info/about http://githuber.info/report

wuchong commented 9 years ago

@numbbbbb angularjs 不是对SEO支持不好么,是怎么做到可以爬虫的呢 ?

kxxoling commented 9 years ago

@wuchong 额,我没注意是用 Angular 写的。。。不过 Google 的爬虫应该是可以运行 JS 的,比如这个搜索结果:关于 githuber.info/about 另外,想要支持其它爬虫可以用 PreRender 之类的技术,Node 有 prerenader.io,Java 有 HTMLUnit,Python 有 Phantom 等等。

bh-lay commented 9 years ago

个人认为这个issue可以关掉了。 一来,对于现在的站点来说没有实质性需要做的事情。 另外,支持爬虫其实很简单的,单页路由用hash可以用“#!”作为起始最为开始标志(目前仅支持google),用path的话后端针对性的吐出不同的视图即可(个人博客是这样处理的)。 当然,这又是一个和本issue完全不同的另一件事。 综上,关掉这个issue呗!