Problem when training CycleGAN

microsoft / DeepSpeed

DeepSpeed is a deep learning optimization library that makes distributed training and inference easy, efficient, and effective.

Apache License 2.0

35.66k stars 4.14k forks source link

Sometimes (e.g. CycleGAN) we need to optimize two (or more) models' parameters together because it will be more efficient (e.g. when optimizing cycle loss we definitely don't want to use retain_graph=True).

I was just wondering whether this is the right way to initialize optimizer which aims to optimize both net_a2b's & net_b2a's parameters:

original_optimizer = ...
net_a2b, optimizer, _, _ = deepspeed.initialize(args, net_a2b, original_optimizer)
net_b2a, _, _, _ = deepspeed.initialize(args, net_b2a, original_optimizer)

Any help would be very grateful, thanks in advance!

microsoft / DeepSpeed

Problem when training CycleGAN #582