weblab-tw / ddia-study-group

Designing Data-Intensive Applications Study Group
36 stars 5 forks source link

第八章:判斷節點故障/死亡 - Taco #99

Open taco0929 opened 2 years ago

taco0929 commented 2 years ago

這篇介紹了一個檢測節點死亡的設計,除了判斷回應時間外,還設計了一個懷疑參數phi,當懷疑參數高於一個閥值即判斷該節點失效。 Oracle也有檢測節點故障並自動採取後續行動的機制。 我們公司目前的做法都是人工檢測(i.e.:人工監測->判斷故障原因->採取行動),想請問大家有沒有設計過如何判斷節點故障與的算法或模型?

0x171-0 commented 2 years ago