smile0655 / test

0 stars 0 forks source link

nccl参数 #15

Open smile0655 opened 1 year ago

smile0655 commented 1 year ago

<html xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:dt="uuid:C2F41010-65B3-11d1-A29F-00AA00C14882" xmlns="http://www.w3.org/TR/REC-html40">

环境变量 | 解释 | 设置 -- | -- | -- NCCL_IB_HCA | 环境中的RDMA网卡 | 用ibstatus查看, hpcpni2规格推荐配置为:NCCL_IB_HCA=mlx5_1:1,mlx5_2:1,mlx5_3:1,mlx5_4:1 NCCL_SOCKET_IFNAME | 指定用于通信的IP接口 (指定NCCL使用的SOCKET网卡 ) | 设置成主机的host网卡,可通过ip a查找,推荐配置为:NCCL_SOCKET_IFNAME=eth1 NCCL_IB_GID_INDEX | 设置RDMA通信优先级 | 执行show_gids确认对应的IB网卡gid index,推荐配置为:NCCL_IB_GID_INDEX=3 NCCL_IB_DISABLE | 是否关闭RDMA通信 | 设置成1来启用TCP通信(非RDMA),推荐配置为: NCCL_IB_DISABLE=0 NCCL_DEBUG | NCCL日志级别 | 推荐设置为: NCCL_DEBUG=INFO NCCL_IB_TIMEOUT | 网络断点重连超时时间 | 推荐设置为: NCCL_IB_TIMEOUT=23 NCCL_IB_RETRY_CNT | 网络断点重连重试次数 | 推荐设置为: NCCL_IB_RETRY_CNT=7