baidu / braft

An industrial-grade C++ implementation of RAFT consensus algorithm based on brpc, widely used inside Baidu to build highly-available distributed systems.
Apache License 2.0
3.99k stars 886 forks source link

在极端场景下,braft会将多数节点未持久化的数据应用到状态机中 #357

Closed weingithub closed 2 years ago

weingithub commented 2 years ago

假设组有A,B,C三个成员,A是leader。构造A,B,C节点持久化故障。即数据无法持久化。一直卡住的状态。 假设此时有index 2,3,4数据。首先,A中,由于无法持久化,所以A本地没有写入成功。 A向B发送数据,此时等到B中entry集合(2,3,4)写入log_manager中的_logs_in_memory,但是卡在底层存储的时候,构造B节点的网络故障,此时A的append_entries请求会失败,之后恢复B节点的网络故障。此时A会将entry集合(2,3,4)重新发送给B,此时由于B中_logs_in_memory已经有了这些entry数据,因此done中的entries会为空,因此会向leader返回本次append_entries成功(LogManager::check_and_resolve_conflict)。A节点会得到B的entry集合(2,3,4)插入成功的结果

C节点同理,构造相同的故障和恢复过程。此时A中也会得到C的entry集合(2,3,4)写入成功的结果。

由于B,C都写入成功,因此entry集合(2,3,4)的数据会被应用到状态机中。 但是此时的entry集合(2,3,4)在ABC节点中都没有持久化成功。此时如果重启A,B,C节点,就会出现数据丢失问题。集群也不可用。 @PFZheng

ehds commented 2 years ago

即使 done 的 entries 是空的,但是还是会将其加入 _disk_queue https://github.com/baidu/braft/blob/575aacaba7e7fa78016224852b5611b3eeeecece/src/braft/log_manager.cpp#L444 又因为_disk_queue 是串行化执行,只有当前面的 entries 落盘后才会返回。

weingithub commented 2 years ago

哦哦。如果是这样的话,那的确不会有问题。谢谢

weingithub commented 2 years ago

那我想问下,如果我当前这边,把logstorage的append_entries改成异步了。所以log_manager这边有了乱序的情况。那么有哪些问题需要我这边额外关注的?

PFZheng commented 2 years ago

那我想问下,如果我当前这边,把logstorage的append_entries改成异步了。所以log_manager这边有了乱序的情况。那么有哪些问题需要我这边额外关注的?

append entry 的接口需要变化,完全异步化,解耦 io 的部分和其中计算逻辑,以让 io 的部分能够 dispatch 给 spdk、io uring 等更好的引擎来处理。log 的实现,可以考虑物理 log 基础上可以叠加一层逻辑 log,例如,a b 两个日志并行落盘之后,在逻辑上如果 b 依赖 a,即使 b 先落盘,对外围也是不可见的。 有了这样的 log 实现,pipiline replication、线程模型这些就能进一步改进。

总之,这里有许多工作要做,我们后面也会考虑这些。

weingithub commented 2 years ago

那我想问下,如果我当前这边,把logstorage的append_entries改成异步了。所以log_manager这边有了乱序的情况。那么有哪些问题需要我这边额外关注的?

append entry 的接口需要变化,完全异步化,解耦 io 的部分和其中计算逻辑,以让 io 的部分能够 dispatch 给 spdk、io uring 等更好的引擎来处理。log 的实现,可以考虑物理 log 基础上可以叠加一层逻辑 log,例如,a b 两个日志并行落盘之后,在逻辑上如果 b 依赖 a,即使 b 先落盘,对外围也是不可见的。 有了这样的 log 实现,pipiline replication、线程模型这些就能进一步改进。

总之,这里有许多工作要做,我们后面也会考虑这些。

好的,感谢各位的耐心回答。