Open tbwang-clound opened 3 weeks ago
Describe the feature MiNiCPW 提出了WSD的学习率调度策略,比consine的效果要好,建议加上。因为框架耦合太严重,加起来很费劲。
transformers trainer支持,ms-swift就支持啊
对lr_scheduler的定制牵扯到框架重构和插件化,这个会尽快处理
Describe the feature MiNiCPW 提出了WSD的学习率调度策略,比consine的效果要好,建议加上。因为框架耦合太严重,加起来很费劲。