一致性Hash 算法原理及实现

假设现在我们需要使用 Redis 存储图片资源，存储的格式为键值对，key 为图片名称，value 为该图片所在文件服务器的路径，我们需要根据文件名查询该文件所在文件服务器上的路径，假设数据有 100W，部署 4 台缓存服务器，每台服务器大约存储 25W 数据，如果按照随机分配的规则，某一条数据可能会存储在任何一台缓存服务器上，这样，假设查找 beijing.jpg 图片，则最坏需要 4 次查询才能找到，效率很低。

取余 Hash

如果在取数据时能够提前知道某条数据存储在哪个服务器上，则仅需要一次查询就能找到，效率提高很多。这种方案可以通过余数 Hash 来实现，在存储数据时，首先得到数据 key 值的 HashCode，然后对缓存服务器数量取余，得到的余数就是要存储的服务器编号。由于 HashCode 是具有随机性的，因此余数 Hash 算法可以保证缓存数据在整个服务器集群中比较均匀分布。假设图片 beijing.jpg 的 hashcode 值是 10，则存放时放在 10 % 4 = 2 编号为 2 的缓存服务器上，下次取 beijing.jpg 时，可以直接根据 hashcode 值，去编号为 2 的缓存服务器取，只需要一次查询。

这种方法虽然提升了性能，但是还是存在一些缺陷，主要体现在服务器数量发生变动时，缓存的位置就需要发生改变。假设现在 4 台服务器已经满足不了我们的需求，需要添加到 5 台服务器，则还是以 beijing.jpg 为例，之前存储的时候存储在编号为 2 的缓存服务器，现在在取图片时，10 % 5 = 0 ，根据 hashcode 值计算出的缓存服务器编号为 0，无法命中缓存。也就说说缓存服务器的数量发生变动时，大部分缓存一定时间内是失效的，在缓存重建的这段时间内，所有的请求都会从数据库获取数据，容易导致缓存雪崩问题。

TFdream / blog

一致性Hash 算法原理及实现 #338

取余 Hash

什么是一致性 Hash 算法？

相关资料