Closed PromptExpert closed 6 years ago
你好,
请问cache的作用是什么?cache通过update_cycle调节,为什么updata_cycle从1调到4后每步的训练时间变长了(大约四倍)?
你好。update_cycle的主要作用是在单GPU的环境下模拟多GPU的训练。例如在单GPU下设置update_cycle为4的话,相当于每4个batch才会更新一次参数,效果等同于4块GPU训练/4倍batchsize,因此需要的训练时间也会变长。
明白了,谢谢
你好,
请问cache的作用是什么?cache通过update_cycle调节,为什么updata_cycle从1调到4后每步的训练时间变长了(大约四倍)?