Open BarkovBG opened 2 months ago
мы мониторим в этом месте задачи
можно смотреть какие задачи долго не берутся на исполнение
например для релокации таких не должно быть
при дебаге неудобно смотреть на кол-во, надо смотреть на task_id
чтобы можно было сразу пойти почитать логи/посмотреть на задачу
1) пропоставлять estimate не только для control-plane задач, но и для data-plane (а для тех у кого не устанавливается estimate считать что таймаут равен часу) 2) текущий сенсор hanging tasks упразднить или переделать под новое определение - "задача должна быть hanging если она в ready_to_run, running, ready_to_cancel, cancelling и продолбала estimate, например в 2 раза" 3) у нас уже есть сенсор hangingTasks, нужно его переделать под это определение 4) возможно, стоит перенести вычисление этого сенсора в эту задачу - https://github.com/ydb-platform/nbs/blob/0555c7db24e936c1d359ead9087d2e24b9229d84/cloud/tasks/collect_lister_metrics_task.go 5) репортить не кол-во hanging тасок, а id задач
reporting task_id constantly is too resource-intensive, so we should only report task_id for tasks that are hanging:
ready_to_run
/running
/ready_to_cancel
/cancelling
and lifetime > 2 * estimate_time
Currently, we only report the number of hanging tasks to Solomon, making it difficult to identify all the tasks that are hanging. The task is to report the task_id for hanging tasks.