tuziben / TuziBen

0 stars 0 forks source link

elasticsearch index 暴涨导致超时 #8

Open tuziben opened 6 months ago

tuziben commented 6 months ago
  1. 研发误操作,导致 es 集群的index数量从600个暴涨到7800个
  2. 每个index 都是小文件, 基本都是几百KB

现象: es io 下降, 服务大量出现超时的报错日志

分析过程: 看监控数据CPU Mem 没有发现异常, 只看到磁盘IO呈现下架趋势 研发表示没有改动代码

看对应的index 发现query 没有时间限制, 同时 index 有很多的segment, 想尝试做合并

但发现很多index包含时间戳的index, 而且至少有3000多个,因此和研发确认, 是否符合正常预期

对方确认误操作,导致任务出错, 从而产生了大量的 index, 而且操作时间和出现超时的时间点比较吻合

为此: 我们初步怀疑 io 下降可能和他们的误操作有一定的关系,

  1. 让研发fix粗误
  2. 批量删除 index
    grep '+' tmp |awk '{print $3}'|awk '{
    if (NR % 100 != 0)
        printf "%s,", $0;
    else
        print $0;
    }'

    3 删除index 发现 io 立刻上升, 错误异常日志消失