Open linmuchuiyang opened 2 years ago
您好,我们已经收到了您的问题,会安排技术人员尽快解答您的问题,请耐心等待。请您再次检查是否提供了清晰的问题描述、复现代码、环境&版本、报错信息等。同时,您也可以通过查看官网API文档、常见问题、历史Issue、AI社区来寻求解答。祝您生活愉快~
Hi! We've received your issue and please be patient to get responded. We will arrange technicians to answer your questions as soon as possible. Please make sure that you have posted enough message to demo your request. You may also check out the API,FAQ,Github Issue and AI community to get the answer.Have a nice day!
hi,请问v1到v2版本的转换器是指什么呢?
hi,请问v1到v2版本的转换器是指什么呢?
https://www.paddlepaddle.org.cn/documentation/docs/zh/guides/model_convert/migration_cn.html
bug描述 Describe the Bug
从NGC官网下载22.05的paddlepaddle版本:
docker run --gpus all -it --rm nvcr.io/nvidia/paddlepaddle:22.05-py3
运行paddle的示例:https://github.com/PaddlePaddle/models/blob/release/1.8/dygraph/mnist/train.py 执行过程中报错如下:执行命令:python -m paddle.distributed.launch --selected_gpus=0,1,2,3 --log_dir ./mylog mnist_distribution_v1.py
我推测是不是因为例子是1.8版本,而docker的环境是2.2.2 版本的,所以有API的不同,因而采用paddle v1到v2版本的转换器进行转换,将v1版本转换成v2之后,依然采用相同的命令执行并行计算,此次,报错如下:
按照上面的提示,我设置了两个环境变量,同时增大了docker的shm-size,依然是相同的报错,此外,我用run_check 检查了机器环境,发现GPU卡间是不能p2p的,但是fluid是通过了多GPU的测试的。
其他补充信息 Additional Supplementary Information
机器环境为8*V10016G的GPU