ydb-platform / nbs

Network Block Store
Apache License 2.0
50 stars 14 forks source link

[Disk Manager] report task id in collect lister metrics task #903

Open BarkovBG opened 2 months ago

BarkovBG commented 2 months ago

Currently, we only report the number of hanging tasks to Solomon, making it difficult to identify all the tasks that are hanging. The task is to report the task_id for hanging tasks.

BarkovBG commented 2 months ago

мы мониторим в этом месте задачи

можно смотреть какие задачи долго не берутся на исполнение

например для релокации таких не должно быть

при дебаге неудобно смотреть на кол-во, надо смотреть на task_id

чтобы можно было сразу пойти почитать логи/посмотреть на задачу

BarkovBG commented 2 months ago

1) пропоставлять estimate не только для control-plane задач, но и для data-plane (а для тех у кого не устанавливается estimate считать что таймаут равен часу) 2) текущий сенсор hanging tasks упразднить или переделать под новое определение - "задача должна быть hanging если она в ready_to_run, running, ready_to_cancel, cancelling и продолбала estimate, например в 2 раза" 3) у нас уже есть сенсор hangingTasks, нужно его переделать под это определение 4) возможно, стоит перенести вычисление этого сенсора в эту задачу - https://github.com/ydb-platform/nbs/blob/0555c7db24e936c1d359ead9087d2e24b9229d84/cloud/tasks/collect_lister_metrics_task.go 5) репортить не кол-во hanging тасок, а id задач

leftmain commented 2 months ago

reporting task_id constantly is too resource-intensive, so we should only report task_id for tasks that are hanging: