rainit2006 / BigData-DB-SearchEngine

0 stars 0 forks source link

Hadoop案例 #6

Open rainit2006 opened 7 years ago

rainit2006 commented 7 years ago

案例:日志管理

实现: 探针设计 在页面里加入探针代码(js代码),把用户记录 统计到一个专门的日志收集服务器(或统计服务器)里。

问题:排除爬虫和程序点击导致的虚假流量 1,用鼠标测动方法来对抗爬虫(js代码实现) 2,常用流量作弊手段。 对抗方法:从属性里解析顶层窗口的url是否是服务器主站地址。 3,跟踪用户(通过cookie内容来解析用户IP)来防止作弊。

遇到的问题:

解决: (1)Hadoop方案

(2) Hadoop+Hbase方案。 比方案(1)更好。

rainit2006 commented 7 years ago

应用案例:京东商城,阿里巴巴的应用分析

Hadoop在京东商城的应用: 源起:为pop商家进行日志分析服务

瓶颈: 曾采用Oracle RAC(2节点),IBM小型机,由于数据量极大,无法满足时效要求。 成本瓶颈:小型机再进行高配和节点扩展,价格昂贵。

Hadoop集群作为解决方案:

遇到的挑战:

心得: 大型企业成功应用Hadoop,必须有源代码级别修改的技术力量。普通的程序员阅读修改Hadoop源代码并不困难。 HiveSQL和Oracle的SQL有一些差异,大约花一周时间阅读Apache的Hive wiki基本能掌握。

部门结构:

rainit2006 commented 7 years ago

淘宝:单一集群3000节点以上,2-3个集群。 支付宝: 集群规模也达700台,适用Hbase,个人消费记录,key-value型。

对Hadoop源码的修改

NameNode发生故障时对系统的影响)

管理模式:

淘宝魔方:淘宝的数据产品