Open tuziben opened 6 months ago
现象: es io 下降, 服务大量出现超时的报错日志
分析过程: 看监控数据CPU Mem 没有发现异常, 只看到磁盘IO呈现下架趋势 研发表示没有改动代码
看对应的index 发现query 没有时间限制, 同时 index 有很多的segment, 想尝试做合并
但发现很多index包含时间戳的index, 而且至少有3000多个,因此和研发确认, 是否符合正常预期
对方确认误操作,导致任务出错, 从而产生了大量的 index, 而且操作时间和出现超时的时间点比较吻合
为此: 我们初步怀疑 io 下降可能和他们的误操作有一定的关系,
grep '+' tmp |awk '{print $3}'|awk '{ if (NR % 100 != 0) printf "%s,", $0; else print $0; }'
3 删除index 发现 io 立刻上升, 错误异常日志消失
现象: es io 下降, 服务大量出现超时的报错日志
分析过程: 看监控数据CPU Mem 没有发现异常, 只看到磁盘IO呈现下架趋势 研发表示没有改动代码
看对应的index 发现query 没有时间限制, 同时 index 有很多的segment, 想尝试做合并
但发现很多index包含时间戳的index, 而且至少有3000多个,因此和研发确认, 是否符合正常预期
对方确认误操作,导致任务出错, 从而产生了大量的 index, 而且操作时间和出现超时的时间点比较吻合
为此: 我们初步怀疑 io 下降可能和他们的误操作有一定的关系,
3 删除index 发现 io 立刻上升, 错误异常日志消失