mindspore-lab / mindyolo

MindSpore YOLO series toolbox and benchmark
Apache License 2.0
81 stars 35 forks source link

[yoloV8 n 单机8卡训练耗时问题] #277

Open Mr-shen-yyds opened 3 months ago

Mr-shen-yyds commented 3 months ago

一、问题表现 1、单机单卡训练时间正常

2、单机8卡训练卡住在图编译阶段-耗时严重,最后导致建链超时(默认静态模式) 拉起命令: mpirun --allow-run-as-root -n 8 python train.py --config ./configs/yolov8/yolov8n.yaml --device_target Ascend --data_dir /home/code/coco --is_parallel True

image

3、单机8卡训练(修改计算图为动态模式) - 可以迭代,但迭代数据较慢。 image

4、同环境上训练densenet121模型单机8卡训练正常。 image

yuedongli1 commented 3 months ago

可以使用MindSpore 2.2.12.B010版本

Mr-shen-yyds commented 3 months ago

请问这个mindspore 软件包在哪里可以获取,方便给一下下载链接吗?

方便预定会议和我一起对齐测验一下这个问题吗?可以快速高效处理问题

---原始邮件--- 发件人: @.> 发送时间: 2024年3月26日(周二) 中午11:50 收件人: @.>; 抄送: @.**@.>; 主题: Re: [mindspore-lab/mindyolo] [yoloV8 n 单机8卡训练耗时问题] (Issue #277)

可以使用MindSpore 2.2.12.B010版本

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

Mr-shen-yyds commented 3 months ago

你好,可以麻烦提供一下二进制包进行使用吗?b010内部转测版本我这边无法获取。

---原始邮件--- 发件人: @.> 发送时间: 2024年3月26日(周二) 中午11:50 收件人: @.>; 抄送: @.**@.>; 主题: Re: [mindspore-lab/mindyolo] [yoloV8 n 单机8卡训练耗时问题] (Issue #277)

可以使用MindSpore 2.2.12.B010版本

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

Mr-shen-yyds commented 3 months ago

或者之前的一些可以使用的版本进行提供也可以的, 我整体更换一下

zhanghuiyao commented 3 months ago

版本建议可以跟readme中的一致,另外mindspore的安装包均可以在官网上获取到哈 https://www.mindspore.cn/versions

zhanghuiyao commented 3 months ago

如果是编译太慢导致的超时问题可以尝试调整这个环境变量设置超时时间,单位为 秒 export HCCL_CONNECT_TIMEOUT=7200