Alluxio 项目简介 - Githubissues

1. 简介

Alluxio是源自加州大学伯克利分校AMPlab的开源项目，2013年4月开源，原名Tachyon，是一个以内存为中心的虚拟的分布式存储系统，它是架构在底层分布式文件系统和上层分布式计算框架之间的一个中间件，主要职责是以文件形式在内存或其它存储设施中提供数据的存取服务。统一了数据访问的方式，为上层计算框架和底层存储系统建立了桥梁。

preview

2. 架构

Alluxio为大数据或者机器学习系统中提供了一个数据访问层，在大数据或者机器学习生态系统中，Alluxio 介于计算框架(如 Apache Spark，Apache MapReduce，Apache HBase，Apache Hive，Apache Flink)和现有的存储系统（如 Amazon S3，OpenStack Swift，GlusterFS，HDFS，MaprFS，Ceph，NFS，OSS）之间。使用Alluxio作为数据访问层有以下好处：

对于用户应用来说，Alluxio提供了快速存储，促进了作业之间的数据共享和局部性，而不管使用的是哪种计算引擎。因此，当数据位于本地时，Alluxio可以以内存速度提供数据; 当数据位于Alluxio时，Alluxio可以以计算集群网络的速度提供数据。第一次访问数据时，只从存储系统上读取一次数据，可以极大地加速底层数据访问的速度。为了得到更好的性能，Alluxio推荐部署在计算集群上。
对于存储系统，Alluxio弥补了大数据应用与传统存储系统之间的差距，扩大了可用的数据工作负载集。对于上层应用，Alluxio蔽了底层存储系统，任何存储系统都可以支持任何运行在Alluxio上面的应用，当同时使用多种底层存储系统时候，Alluxio提供了多样化数据的统一访问层。

Alluxio是一个主从结构的系统。它的主节点为Master，负责管理全局的文件系统元数据，比如文件系统树等，而从节点为Worker，负责管理本节点数据存储服务。另外，Alluxio还有一个组件为Client，为用户提供统一的文件存取服务接口。

Master Alluxio的Master可以以AS的模式部署来实现容错，当主master挂掉的时候，从master就会被选举成为新的主master

Master节点主要负责管理系统里的全局Metadata，包括：1）文件系统metadata；2）block metadata；3）worker容量metadata。

Alluxio client和主Master交互来读取或者修改metadata数据。所有的worker会周期性地向主master发送心跳数据来维持集群里面的协同。

Worker负责管理分配给Alluxio的用户可配置的本地资源（如Memory，SSD，HDD）。Alluxio worker使用块来存储数据，worker只负责管理存储块，而实际的块和文件之间的映射是存在Master中。

Worker执行底层存储操作，主要有以下好处：

1）从底层存储读取数据可以立即存储到worker中，并且可以被其他client立即使用

2）Client可以是轻量化且不依赖底层存储

由于内存容量限制，当worker中容量满的时候，存储块会被回收，关于worker中的存储块回收，Alluxio有专门的回收策略实现。这就是Alluxio的分层存储策略。

3. 存储

Alluxio中的存储分为两类：

UFS（底层文件存储，也叫底层存储）
- 这类代表不是有Alluxio直接管理的存储，UFS可以是一个外部的存储系统，包括HDFS和S3，Alluxio可以连接到一个或者多个UFSs
- 通常，UFS目的是存储大量持久化存储数据
Alluxio 存储
- Alluxio管理的存储空间，包括内存，Alluxio worker作为分布式cache，这是用户应用和多样的底层存储之间最快的数据层，用于及大地提高IO性能。
- Alluxio存储主要目的是存放热数据、暂态数据，而不注重于存储持久化数据。
- 每一个Alluxio Node的存储数量和类型取决于用户的配置
- 即使数据没有存在Alluxio的存储中，数据如果存在Alluxio连接的UFS中，当有请求读取数据的时候，数据也会被拷贝到Alluxio存储中。

4. 数据读操作

本地缓存命中。一旦客户端发现访问的数据在本地存在，则会直接通过一种“短路读”的方式，直接访问本地文件系统进行访问，从而绕开TCP网络传输过程。此过程如下图所示：

dataflow-local-cache-hit

远程缓存命中。当请求的数据在Alluxio中，但是没有在本地worker中，client将会从存在请求数据的worker上读取数据，当结束数据读取操作，client也会指示本地worker从远端的worker中将请求的数据拷贝一份到本地worker中。这样，如果后续还会从该worker中读取数据的时候，就会极大地提升效率。

dataflow-remote-cache-hit

缓存非命中情况。这种情况绝大部分会发生于第一次读取文件数据的时候，然后worker会读取底层文件系统，然后加到内存里，方便下次缓存的命中。

当读取请求只读取一个数据块的一部分，或者读取一些不连续的数据块的时候。client将会让worker异步地缓存整个数据块。

dataflow-cache-miss

5. 数据写操作

用户可以通过指定不同的写类型来配置数据被怎样写入。write type 可以在Alluxio的API中指定，也可以通过配置文件来制定默认的些类型。

只写入Alluxio worker（MUST_CACHE）

当指定写类型为MUST_CACHE的时候，Alluxio Client会将数据只写入本地的worker且数据不会写入底层存储，写入数据的时候如果“短路”写可用的话，Alluxio client将会直接将数据写入本地RAM disk中，从而绕过网络传输。由于这种类型的数据没有被写入到持久化存储中，如果机器宕机数据将会丢失或者重新写入数据。因此MUST_CACHE类型用于写入临时数据或者可以容忍数据丢失的情况。

dataflow-must-cache

写入数据到底层存储（CACHE_THROUGH）

当指定写入类型为CACHE_THROUGH时，数据将会同步地写入到Alluxio的worker和底层存储系统。Alluxio client的写请求发送到worker，worker将会同步地写入到本地内存以及底层存储系统。因为底层存储写入属于慢速操作，worker整体的写入速度也将会被拖慢。CACHE_THROUGH写入类型一般是需要数据持久化存储的场景。

dataflow-cache-through

写回数据到底层存储（ASYNC_THROUGH）

ASYNC_THROUGH写入类型，指定这种类型，数据将会异步地被写入到worker和worker的底层存储，这种类型可以提供内存速度级别的写入速度且保证数据持久化。

dataflow-async-through

6. 参考

https://docs.alluxio.io/os/user/1.8/en/Architecture-DataFlow.html#architecture

https://docs.alluxio.io/os/user/1.8/en/advanced/Alluxio-Storage-Management.html

liusheng / liusheng.github.io