cherishman2005 / rtc_tools

rtc ffmpeg
3 stars 0 forks source link

AI训练内存涨了爆炸(程序coredump) #3

Closed cherishman2005 closed 2 years ago

cherishman2005 commented 2 years ago

问题描述

保存在/data/local目录下就正常内存不崩溃,保存在/data/remote就会爆炸。

local保存也有问题

不保存也是涨了爆炸

分析思路

能否复现下,然后 与运维 一起看下 出现爆炸时间点的程序运行情况, log,cpu,gpu,磁盘,网络等情况。

结论

发我的ip和时间点看,就内存飙升很快,估计那个时间就是超过容器限制的内存被kill了,机器磁盘io个方面指标也没到瓶颈 image 容器集群层面没变更,这个机器从系统看也没发布变更,还是从程序方面去排除为啥内存涨的这么快吧

gpu使用率也达到了100% EFC66F093933233541F4629D08F1AC67

cherishman2005 commented 2 years ago

拿一台物理机测试一下吧

或者你们抛弃容器…直接跑…看看内存会不会涨

cherishman2005 commented 2 years ago

反馈是无锡物理集群、张家口阿里云集群都有问题,佛山物理机直接跑的一直都没问题,有问题的ip都发一下再确认下各个组件有没用做过变更

cherishman2005 commented 2 years ago

从监控和内核日志看就是程序有内存泄漏,最终占用内存过多,被oom kill掉了,你们看看能不能分析下代码层面内存泄漏的点在哪吗?是不是有用到相同的库或者模块引发的,这块只能你们自己排查的,运维层面的操作系统,配置,gpu驱动各方面都看了是一样的