rishikksh20 / VocGAN

VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested Adversarial Network
MIT License
319 stars 61 forks source link

Is it possible to train KSS dataset in master branch? #27

Open taewhankim opened 3 years ago

taewhankim commented 3 years ago

Thanks for sharing great result. I want to train kss data for training vocoder to use in fastspeech2 with master branch code, is it possible?

Avg : g 1.3729 d 0.0000 ad 0.0000| step 5976: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████| 166/166 [05:01<00:00,  1.81s/it]
Avg : g 1.3659 d 0.0000 ad 0.0000| step 6142: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████| 166/166 [05:01<00:00,  1.82s/it]
Avg : g 1.3601 d 0.0000 ad 0.0000| step 6308: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████| 166/166 [05:06<00:00,  1.85s/it]
Avg : g 1.3537 d 0.0000 ad 0.0000| step 6474: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████| 166/166 [05:02<00:00,  1.82s/it]
Avg : g 1.3493 d 0.0000 ad 0.0000| step 6640: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████| 166/166 [05:05<00:00,  1.84s/it]
g 2.5462 d 3.1285 ad 1.0426| step 6640: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2196/2196 [00:46<00:00, 47.20it/s]
Avg : g 1.3415 d 0.0000 ad 0.0000| step 6680:  24%|██████████████████████████▌                                                                                   | 40/166 [01:14<01:10,  1.79it/s

Because d Loss and ad Loss didn't show any result, When I trained.

Jackson-Kang commented 3 years ago

Hi, @taewhankim .

In this implementation, discriminator starts to train at 100,000 steps. Before 100,000 steps, "d" (discriminator loss) and "ad" (adversarial loss) are printed as zero.

Also, I downsampled sampling rate of the KSS dataset to 22,050Hz.

taewhankim commented 3 years ago

Thanks to reply! Have a nice day