anjia / blog

博客,积累与沉淀
107 stars 4 forks source link

Hadoop #67

Open anjia opened 5 years ago

anjia commented 5 years ago

440px-Hadoop_logo svg

Apache Hadoop 数据密集型,分布式应用程序

现在普遍认为整个 Apache Hadoop“平台”包括:

  1. Hadoop内核
  2. MapReduce:应用程序被分割成许多小部分,每个部分都能在集群中的任意节点上运行或重新运行
  3. HDFS,Hadoop分布式文件系统:用以存储所有计算节点的数据,为整个集群带来高带宽
  4. 一些相关项目
    • Apache HBase:分布式NoSQL列数据库,类似谷歌公司BigTable。
    • Apache Hive:构建于hadoop之上的数据仓库,通过一种类SQL语言HiveQL为用户提供数据的归纳、查询和分析等功能
    • ...等等

Hadoop 框架透明地为应用提供可靠性和数据移动。MapReduce和分布式文件系统的设计,使整个框架能够自动处理节点故障

https://zh.wikipedia.org/wiki/Apache_Hadoop

anjia commented 5 years ago

集群 vs 分布式

https://www.zhihu.com/question/20004877

内存单位

1KB = 1024b

#cat /proc/meminfo
MemTotal:        7815864 kB  # 约 8G
MemFree:          527652 kB  # 约 500MB
MemAvailable:    2259584 kB  # 约 2G

k 表示 1000 K 表示 1024

anjia commented 5 years ago

Hadoop入门

几个模块

  1. 原始日志:
  2. Apache Chukwa:日志收集,收集各种数据保存在HDFS中(供Hadoop进行MapReduce操作)
  3. Apache Flume:海量日志聚合的系统,可用于日志数据收集、处理、传输
  4. HDFS
  5. MapReduce
  6. Apache Hive:将结构化的数据文件映射为一张数据库表,通过类SQL快速实现简单的MapReduce统计,不必开发专门的MapReduce应用
  7. Apache Pig:数据分析工具,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算
  8. Apache HBase:基于HADOOP的分布式海量数据库。分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集。
  9. Apache Sqoop:数据导入导出工具(比如用于mysql和HDFS之间)
  10. Apache Oozie:工作流调度框架,管理/协调在Hadoop平台上的任务(HDFS/Pig/MapReduce)

相关技术

  1. HDFS(分布式文件系统):解决海量数据存储
  2. MAPREDUCE(分布式运算程序开发框架 ):解决海量数据计算
  3. HIVE:基于HADOOP的分布式数据仓库,提供基于SQL的查询数据操作
  4. YARN(作业调度和集群资源管理的框架):解决资源任务调度

其它:

补充

anjia commented 5 years ago

YARN 架构

YARN 是 Hadoop 2.0 提出的资源管理、任务调度框架。解决了很多 Hadoop 1.0 时代的痛点。

Yet Another Resource Negotiator

YARN 的基本思想是将“资源管理”和“作业调度/监控”的功能分为独立的守护进程。它整体上是 Master/Slave 结构:

随着发展,YARN 不仅仅是 Hadoop 的资源调度框架,还成为一个通用的资源调度管理器,可以将各种各样的计算框架通过 YARN 管理起来,比如 Strom、Spark 等

https://blog.csdn.net/liuxinghao/article/details/74939382 https://matt33.com/2018/09/01/yarn-architecture-learn/

https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/ https://www.ibm.com/developerworks/cn/data/library/bd-yarn-intro/index.html