Efficient Distributed Memory Management with RDMA and Caching:

GAM：使用 RDMA 实现的 shared memory 系统，与 shared nothing 相对。 unique memory model 能够让开发者不需要重写代码。

snooping-based cache coherence: https://www.wikiwand.com/en/Bus_snooping directory-based cache coherence: https://www.wikiwand.com/en/Directory-based_cache_coherence

Scalable Replay-Based Replication For Fast Databases

对高性能数据库做 replication 的优化。内存型数据库通常能支撑超高 TPS，但 backup 节点可能会跟不上，另外考虑到一个背景：磁盘的升级往往很容易，网络的升级通常很困难；所以 replication 应该尽可能减少 network traffic。

优化1. 事务如何写日志？oltp 下 input 通常远小于 output，所以 replication 只发 input。

SQL Statement Logging for Making SQLite Truly Lite

使 SQLite 的 IO 开销更小。

[Stylus: A Strongly-Typed Store for Serving Massive RDF Data]

RDF 是 schemaless 的。Stylus 使用强类型存储模型使得 RDF 的存储和查询更高效。

Experimental Analysis of Distributed Graph Systems

对几个图数据库进行对比评测（Hadoop, HaLoop, Vertica, Giraph, GraphLab (PowerGraph), Blogel, Flink Gelly, and GraphX (SPARK)）。

Streaming Graph Partitioning: An Experimental Study

现有对图计算进行分片的方法是先离线处理图结构，之后再进行分片。由于离线处理对近实时业务不友好，领域内对流式图分片有需求，但该问题尚未被探索。

Exploiting Coroutines to Attack the “Killer Nanoseconds”

Analyzing the Impact of System Architecture on the Scalability of OLTP Engines for High-Contention Workloads

顾名思义，研究系统架构对 OLTP 事务引擎在高并发场景（in-memory OLTP）下的影响。这其中的系统架构包括了：

share-everything：事务处理需要有全局唯一锁（悲观锁），或者是全局时间戳，这种方案可扩展性差
Data oriented transaction execution (DORA)：建立 data->thread 的唯一映射，想要访问某个数据，就必须去相对应的线程下执行。（pegasus hashkey，但需要维护）
Partitioned Serial Execution：数据被分成多个 partitions，对一个 partition 的每次请求，都只会由一个 cpu core 处理，所以能保证单 partition 事务不加锁，跨 partition 的事务（multi-sited transaction）使用锁。
Delegation：在 Partitioned Serial Execution 的基础上更为激进，各节点的元数据也是 share-nothing 的，即使在同一 server 进程内，各 partition 也被视作独立的分布式节点，节点间通信使用 message passing（Anna，但 Anna 是 kv 系统）

需要注意的是，其中所谓 share-nothing 的架构通常针对的是 Transaction Manager (TM) 与 Process Manager (PM) 两个模块，其他模块并不一定是 share-nothing，例如 Client Communications Manager (CCM)，即 server 的请求分派器（replica_stub）和 the Relational Query Processor (QP)。上面这些名词来自著名 paper：Architecture of a Database System.

Trireme, 同时实现四种 OLTP 引擎，用于比较它们的性能。然而作为极致的理论研究， malloc 并非是 share-nothing 的。为此 Trireme 也实现了 per-thread-heap。

使用 YCSB 作为 benchmark 方案。

Interleaving with Coroutines: A Practical Approach for Robust Index Joins

在 SAP HANA 上使用 coroutines 优化 index join。

Filter Before You Parse: Faster Analytics on Raw Data with Sparser 在 mison 的基础之上做的研究。 Mison: A Fast JSON Parser for Data Analytics mison 来自 vldb 2017，本质思想在于 “push down both projections and filters into the parser”，即一边解析 json，一边进行查询，换句话说就是，不完全解析 json 数据就能够查询特定项，从而加速数据分析的效率。开源实现有：pikkr: https://github.com/pikkr/pikkr

工业论文

PolarFS: An Ultra-low Latency and Failure Resilient Distributed File System for Shared Storage Cloud Database

结合 RDMA，NVMe, SPDK + Parallel Raft 的分布式文件系统，写延时几乎与本地 SSD 文件系统持平。PolarFS 是 PolarDB 的 “存储计算分离” 架构中的存储层。

如果 GFS 教会我们如何实现 Scalability，PolarFS 则教会我们如何实现 low latency。

低延时

自己实现用户态的 IO 栈和网络栈，避免陷入内核态和避免锁，由于 NVMe SSD 的性能提升巨大，内核 IO 栈成为了瓶颈。PolarFS 利用 spdk 优化 IO 栈。
PolarFS 实现了一套 Posix-like APIs（libpfs），所以上层应用可以把所有的 IO 操作都在用户态上运行。libpfs 作为客户端通过 PolarSwitch 将 IO 请求转发至 ChunkServer。
实现 Parallel Raft，因为 Raft 的顺序 committed 策略对写延时影响很大，所以改进 Raft 算法使其能乱序 commit。
尽可能在 IO Path 上不去请求 metadata（PolarCtrl），默认走 local cache，只有请求超时才会查询 metadata。另一方面 Chunk 设置 10GB 远比 GFS 大，从而减少数据迁移和请求超时率。坏处是会带来热点问题。但在数千台机器数和 10TB 单机存储的前提下，10GB 的热点可以轻易通过负载均衡解决。

FusionInsight LibrA: Huawei’s Enterprise Cloud Data Analytics Platform

华为的 FI-MPPDB，5 年前（14年）从原型起步至今广泛应用，面对中国市场设计，用户需求驱动。

高可用：多副本同步复制
使用 SCTP 解决连接过多的问题
Split (Online Expansion)：

F1 Query: Declarative Querying at Scale

F1 已经从一个只支持 Spanner 和 Mesa 的 SQL 查询引擎进化到了能同时支持 OLAP，OLTP，ETL，并且同时支持多种存储引擎（Spanner，BigTable，Google Spreadsheets）的 SQL 查询平台。新的名字叫 F1 Query。

得益于 Google Jupiter 数据中心网络，F1 能够将存储与计算分离，同时又保证访问远程存储的延时与吞吐与本地存储基本一致。

查询分为

Centralized Execution：主查询节点直接完成，使用单线程算子处理
Distributed Execution：主查询节点做 coordinator，多个查询节点合力完成
Batch Execution：需要 MR 框架辅助完成

多存储支持

不同存储引擎实现各自 operators（Scan Operator, Join Operator），不同于 volcano 的 one-tuple-a-time，F1 算子采用 batch processing 的接口。
F1 支持查询结果导出至多种 data sinks。

成熟的系统

F1 在设计上考虑到，一个 Query 可能由于某些偶发因素，导致耗时远长于预期。例如查询所用内存超过阈值 1 byte，导致 sort 算法从 quicksort 改为 external merge sort。查询优化器可能会因此小概率异常而修改查询策略，使原本偶发的异常影响扩大。

Accordion: Better Memory Organization for LSM Key-Value Stores Accordion 手风琴

它同时也是一个已经登陆 HBase 2.0 的新 feature： In-Memory Compaction。

很多时候写吞吐过大，memtable 的 GC 会阻塞写，形成 ”write stall“。但如果不做 GC，读性能有又会受影响。因为每次读都需要扫所有 memtable 和 L0。

Accordion 的解决方案是在 memtable flush 之前，提前做 compaction。这样既能够容忍大量写吞吐，读路径也能缩短。

active segment | flat segment 1 | flat segment 2 | flat segment 3 |

OLTPShare: The Case for Sharing in OLTP Workloads 在 OLTP 上做资源共享（resource sharing）。

Bubble Execution: Resource-aware Reliable Analytics at Cloud Scale

Query Execution 领域内一直有两种方案：Batch Execution 和 Gang Execution。

Batch 的方法是将 task 按各个 batch 划分，每个 batch 独立完成任务，失败了也独立进行 recovery，每个 batch 独立进行调度，当某个 batch 由于资源受限被延迟执行，其他 batch 仍然可以继续执行。
Gang（interactive query）就是让所有子任务同时并发执行，

neverchanje / notes

vldb 2018 #3

工业论文