Eric-is-good / VIT_wganGP

VITGAN 一个结合了 vision transformer 和 wgangp 的对抗生成网络，生成动漫头像，同时提供一个传统卷积网络的训练好的模型，仅仅 20 M.

10 stars 1 forks source link

readme

VIT_wganGP

一个结合了 vision transformer 和 wgangp 的对抗生成网络，生成64x64 动漫头像，同时提供一个传统卷积网络的训练好的模型，仅仅 20 M.

新增了 VAE 模型，效果要好一点，并提供预训练模型（30M）

wgan 生成示例

recons_7

vae 生成示例

recons_7

测试与训练

测试使用 generate_img.py ，不需要显卡。
训练使用 train_for_wgangp.py 或 train_for_vae.py，需要显卡。

模型切换

我们提供了三个模型（默认是反卷积 + wgangp）

基于 vision transformer 的生成网络和判别网络。（vit + wgangp）
基于反卷积 (cov) 的生成网络和判别网络。（cov + wgangp）
基于反卷积 (cov) 的生成网络和判别网络。（cov + vae）

如何切换

进入 train_for_wgangp.py 文件，在 main 里面，通过 model = WGPGAN(model_name="cov") 的 model_name 切换 vit 和 cov，使用 wgangp。

进入 train_for_vae.py 文件使用 vae。

数据集

直接把图片放在 raw_pics 下，自动转化为 64x64 的图片大小，并保存在pics下。就可以训练了。

模型

提供一个反卷积的模型，仅仅 20 M，在 model 里面，cov.pt 是 cov 的模型。

vae 的模型由于大于 20 MB，被压缩成了两个文件，使用前先解压 vae.zip。