PaddlePaddle / Paddle

PArallel Distributed Deep LEarning: Machine Learning Framework from Industrial Practice (『飞桨』核心框架,深度学习&机器学习高性能单机、分布式训练和跨平台部署)
http://www.paddlepaddle.org/
Apache License 2.0
22.2k stars 5.57k forks source link

同样docker容器,同样的代码3090/4070显卡报错,V100/A100训练成功 #66095

Open quanzhang2020 opened 3 months ago

quanzhang2020 commented 3 months ago

bug描述 Describe the Bug

https://github.com/yeyupiaoling/AudioClassification-PaddlePaddle 这个工程,在V100显卡机器按照相关的依赖安装,训练成功后,打包成docker;commit docker image导出到另外一台4070显卡机器,同样的样本,同样的参数运行会报cuda错误。各种库依赖详见:https://github.com/yeyupiaoling/AudioClassification-PaddlePaddle

其他补充信息 Additional Supplementary Information

No response

quanzhang2020 commented 3 months ago

期间尝试过升级paddle版本、cuda版本和直接用docker hub上面的2.6.1-gpu-cuda11.7-cudnn8.4-trt8.4和2.4.2-gpu-cuda10.2-cudnn7.6-trt7.0以及2.4.2-gpu-cuda10.2-cudnn7.6-trt7.0搭建过环境,在4070上各种cuda的错误。

Sunting78 commented 3 months ago

您好,该repo并非paddle官方开源项目。NVIDIA的不同GPU型号通常需要不同版本的CUDA和GPU驱动来支持。4070上需要安装对应其cuda版本的paddle。