Open wzy9813125 opened 2 years ago
第一点,我们的amp暂时在Graph层支持(即静态图),Eager动态图还不支持AMP,所以直接复制amp模块import我大概率估计是跑不起来
1、from oneflow.cuda import amp报错:oneflow.cuda里没有amp模块
torch.cuda.amp自动混合精度训练 —— 节省显存并加快推理速度 解决方法:直接将torch里的amp模块复制到本地import
oneflow 里如果没有对应的模块,可能是没实现,或者机制不同,可以注释掉相关代码,或者换个方式实现,不要直接硬搬过来。
2、在套用torch_distributed_zero_first函数时,会报错:oneflow.distributed没有barrier
torch_distributed_zero_first函数是用来处理模型进行分布式训练时的同步问题 解决方法:直接注释掉与torch_distributed_zero_first有关代码,不采用分布式训练同步
问题再描述清楚一些,具体这个函数内是做了啥,把具体代码段贴一下,方便他同事解答问题。
3、oneflow.load加载pt模型参数时,报错:load() got an unexpected keyword argument 'map_location'
没有map_location这个参数 目前解决方法是去掉map_loaction,但是再运行会显示模型加载地址找不到的问题
oneflow.load 不能直接加载torch的模型
1、from oneflow.cuda import amp报错:oneflow.cuda里没有amp模块
torch.cuda.amp自动混合精度训练 —— 节省显存并加快推理速度 解决方法:直接将torch里的amp模块复制到本地import
2、在套用torch_distributed_zero_first函数时,会报错:oneflow.distributed没有barrier
torch_distributed_zero_first函数是用来处理模型进行分布式训练时的同步问题 解决方法:直接注释掉与torch_distributed_zero_first有关代码,不采用分布式训练同步
3、oneflow.load加载pt模型参数时,报错:load() got an unexpected keyword argument 'map_location'
没有map_location这个参数 目前解决方法是去掉map_loaction,但是再运行会显示模型加载地址找不到的问题