Open zomux opened 4 years ago
Previous WMT'14 En->De results without refinement (mean of the prior): 22.5 BLEU ("strong" in Shu et al.) 23.15 BLEU ("Gauss-base" in Lee et al., with latent_dim=256)
Train with hidden size = 512
run_8nodes abcirun.sh python lanmt/run2.py --root $HOME/data/wmt14_ende_fair --opt_dtok wmt14_fair_ende --opt_batchtokens 8192 --opt_distill --opt_annealbudget --opt_longertrain --opt_hiddensz 512 --opt_embedsz 512 --train
[valid] len_loss=1.90 len_acc=0.28 loss=30.99 word_acc=0.95 KL_budget=0.76 kl=22.77 tok_kl=0.79 nll=6.33 * (epoch 113, step 93158)
BLEU = 21.2024005116522
fastanneal
optionTraining with fastanneal
run_2nodes abcirun.sh python lanmt/run2.py --root $HOME/data/wmt14_ende_fair --opt_dtok wmt14_fair_ende --opt_batchtokens 8192 --opt_distill --opt_annealbudget --opt_longertrain --opt_hiddensz 512 --opt_embedsz 512 --opt_fastanneal --train --test --evaluate
Let's keep using the distilled dataset from fairseq (as the "strong" model got 25.3 BLEU with 1 refinement), so it should be pretty good.
[x] Bigger latent_dim
[ ] Average ELBO across T
[ ] Use distilled WMT from T2T model
[ ] KL regularization
Jason's Gauss VAE models : https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/models/research/transformer_vae_flow_prior.py#L655-L682
Checklist
distilled dataset, ignore longer than 64 tokens
Latent dim = 512
run_2nodes python lanmt/run2.py --root $HOME/data/wmt14_ende_fair --opt_dtok wmt14_fair_ende --opt_batchtokens 8192 --opt_distill --opt_annealbudget --opt_longertrain --opt_hiddensz 512 --opt_embedsz 512 --opt_fastanneal --opt_latentdim 512 --train --test --evaluate
run_2nodes python lanmt/run2.py --root $HOME/data/wmt14_ende_fair --opt_dtok wmt14_fair_ende --opt_batchtokens 8192 --opt_distill --opt_annealbudget --opt_longertrain --opt_hiddensz 512 --opt_embedsz 512 --opt_fastanneal --opt_latentdim 512 --opt_priorl 4 --opt_decoderl 6 --train --test --evaluate
Also noticed the default num_heads
is 4 : https://github.com/zomux/lanmt-ebm/blob/master/run_ebm.py#L82
@zomux what value are you using for WMT experiments?
run_2nodes python lanmt/run2.py --root $HOME/data/wmt14_ende_fair --opt_dtok wmt14_fair_ende --opt_batchtokens 8192 --opt_distill --opt_annealbudget --opt_longertrain --opt_hiddensz 512 --opt_embedsz 512 --opt_fastanneal --opt_latentdim 512 --opt_priorl 4 --opt_decoderl 6 --opt_heads 8 --train --test --evaluate
abcirun.sh python lanmt/run2.py --root $HOME/data/wmt14_ende_fair --opt_dtok wmt14_fair_ende --opt_batchtokens 8192 --opt_distill --opt_annealbudget --opt_x5longert rain --opt_hiddensz 512 --opt_embedsz 512 --opt_fastanneal --opt_latentdim 512 --opt_priorl 4 --opt_decoderl 6 --train --test --evaluate
After 200k steps
run_2nodes python lanmt/run2.py --root $HOME/data/wmt14_ende_fair --opt_dtok wmt14_fair_ende --opt_batchtokens 8192 --opt_distill --opt_annealbudget --opt_longertrain --opt_hiddensz 512 --opt_embedsz 512 --opt_fastanneal --opt_latentdim 512 --opt_priorl 6 --opt_decoderl 6 --opt_heads 8 --train --test --evaluate
./run_2nodes_long.sh abcirun.sh python lanmt/run2.py --root $HOME/data/wmt14_ende_fair --opt_dtok wmt14_fair_ende --opt_batchtokens 8192 --opt_distill --opt_annealbudget --opt_x5longertrain --opt_hiddensz 512 --opt_embedsz 512 --opt_fastanneal --opt_latentdim 512 --opt_priorl 6 --opt_decoderl 6 --opt_heads 8 --train --test --evaluate
At 300k steps:
Todo List
Checklist