Transformers | decoding long sentence fails

adjouama commented 4 years ago

I produced a model English-Chinese. However,during decoding, it does not translate long sentences. Below is my valid.log and my configuration. Thank you a lot in advance.

Valid.log:

[2019-09-27 12:59:42] [valid] Ep. 1 : Up. 10000 : cross-entropy : 87.8196 : new best
[2019-09-27 13:00:11] [valid] Ep. 1 : Up. 10000 : perplexity : 418.744 : new best
[2019-09-27 13:40:06] [valid] Ep. 1 : Up. 10000 : bleu-detok : 0.179004 : new best
[2019-09-27 14:36:58] [valid] Ep. 1 : Up. 20000 : cross-entropy : 69.8922 : new best
[2019-09-27 14:37:28] [valid] Ep. 1 : Up. 20000 : perplexity : 122.097 : new best
[2019-09-27 15:16:00] [valid] Ep. 1 : Up. 20000 : bleu-detok : 2.24962 : new best
[2019-09-27 16:15:13] [valid] Ep. 2 : Up. 30000 : cross-entropy : 52.1331 : new best
[2019-09-27 16:15:43] [valid] Ep. 2 : Up. 30000 : perplexity : 36.0154 : new best
[2019-09-27 16:49:51] [valid] Ep. 2 : Up. 30000 : bleu-detok : 11.5215 : new best
[2019-09-27 17:46:49] [valid] Ep. 2 : Up. 40000 : cross-entropy : 31.7022 : new best
[2019-09-27 17:47:19] [valid] Ep. 2 : Up. 40000 : perplexity : 8.84103 : new best
[2019-09-27 18:05:06] [valid] Ep. 2 : Up. 40000 : bleu-detok : 29.6744 : new best
[2019-09-27 19:02:12] [valid] Ep. 2 : Up. 50000 : cross-entropy : 25.0214 : new best
[2019-09-27 19:02:42] [valid] Ep. 2 : Up. 50000 : perplexity : 5.58521 : new best
[2019-09-27 19:12:06] [valid] Ep. 2 : Up. 50000 : bleu-detok : 39.7677 : new best
[2019-09-27 20:11:13] [valid] Ep. 3 : Up. 60000 : cross-entropy : 22.288 : new best
[2019-09-27 20:11:43] [valid] Ep. 3 : Up. 60000 : perplexity : 4.62842 : new best
[2019-09-27 20:19:33] [valid] Ep. 3 : Up. 60000 : bleu-detok : 42.7874 : new best
[2019-09-27 21:16:36] [valid] Ep. 3 : Up. 70000 : cross-entropy : 20.765 : new best
[2019-09-27 21:17:06] [valid] Ep. 3 : Up. 70000 : perplexity : 4.16834 : new best
[2019-09-27 21:25:05] [valid] Ep. 3 : Up. 70000 : bleu-detok : 44.976 : new best
[2019-09-27 22:22:08] [valid] Ep. 3 : Up. 80000 : cross-entropy : 19.6859 : new best
[2019-09-27 22:22:39] [valid] Ep. 3 : Up. 80000 : perplexity : 3.8703 : new best
[2019-09-27 22:30:11] [valid] Ep. 3 : Up. 80000 : bleu-detok : 45.8106 : new best
[2019-09-27 23:29:19] [valid] Ep. 4 : Up. 90000 : cross-entropy : 18.9557 : new best
[2019-09-27 23:29:49] [valid] Ep. 4 : Up. 90000 : perplexity : 3.6808 : new best
[2019-09-27 23:37:36] [valid] Ep. 4 : Up. 90000 : bleu-detok : 45.869 : new best
[2019-09-28 00:34:36] [valid] Ep. 4 : Up. 100000 : cross-entropy : 18.3344 : new best
[2019-09-28 00:35:06] [valid] Ep. 4 : Up. 100000 : perplexity : 3.52691 : new best
[2019-09-28 00:43:01] [valid] Ep. 4 : Up. 100000 : bleu-detok : 46.9244 : new best
[2019-09-28 01:42:11] [valid] Ep. 5 : Up. 110000 : cross-entropy : 17.7872 : new best
[2019-09-28 01:42:41] [valid] Ep. 5 : Up. 110000 : perplexity : 3.39668 : new best
[2019-09-28 01:50:42] [valid] Ep. 5 : Up. 110000 : bleu-detok : 47.5072 : new best
[2019-09-28 02:47:49] [valid] Ep. 5 : Up. 120000 : cross-entropy : 17.2622 : new best
[2019-09-28 02:48:19] [valid] Ep. 5 : Up. 120000 : perplexity : 3.27629 : new best
[2019-09-28 02:56:10] [valid] Ep. 5 : Up. 120000 : bleu-detok : 48.2282 : new best
[2019-09-28 03:53:04] [valid] Ep. 5 : Up. 130000 : cross-entropy : 16.8313 : new best
[2019-09-28 03:53:34] [valid] Ep. 5 : Up. 130000 : perplexity : 3.18062 : new best
[2019-09-28 04:01:11] [valid] Ep. 5 : Up. 130000 : bleu-detok : 48.5075 : new best
[2019-09-28 05:00:15] [valid] Ep. 6 : Up. 140000 : cross-entropy : 16.5124 : new best
[2019-09-28 05:00:45] [valid] Ep. 6 : Up. 140000 : perplexity : 3.11172 : new best
[2019-09-28 05:08:26] [valid] Ep. 6 : Up. 140000 : bleu-detok : 48.832 : new best
[2019-09-28 06:05:29] [valid] Ep. 6 : Up. 150000 : cross-entropy : 16.1415 : new best
[2019-09-28 06:05:59] [valid] Ep. 6 : Up. 150000 : perplexity : 3.03334 : new best
[2019-09-28 06:13:42] [valid] Ep. 6 : Up. 150000 : bleu-detok : 49.2102 : new best
[2019-09-28 07:10:42] [valid] Ep. 6 : Up. 160000 : cross-entropy : 15.8707 : new best
[2019-09-28 07:11:12] [valid] Ep. 6 : Up. 160000 : perplexity : 2.97739 : new best
[2019-09-28 07:18:43] [valid] Ep. 6 : Up. 160000 : bleu-detok : 49.5684 : new best
[2019-09-28 08:17:52] [valid] Ep. 7 : Up. 170000 : cross-entropy : 15.628 : new best
[2019-09-28 08:18:22] [valid] Ep. 7 : Up. 170000 : perplexity : 2.92814 : new best
[2019-09-28 08:26:04] [valid] Ep. 7 : Up. 170000 : bleu-detok : 49.8975 : new best
[2019-09-28 09:23:02] [valid] Ep. 7 : Up. 180000 : cross-entropy : 15.4203 : new best
[2019-09-28 09:23:32] [valid] Ep. 7 : Up. 180000 : perplexity : 2.88664 : new best
[2019-09-28 09:31:02] [valid] Ep. 7 : Up. 180000 : bleu-detok : 49.9903 : new best
[2019-09-28 10:30:09] [valid] Ep. 8 : Up. 190000 : cross-entropy : 15.2172 : new best
[2019-09-28 10:30:39] [valid] Ep. 8 : Up. 190000 : perplexity : 2.84658 : new best
[2019-09-28 10:38:12] [valid] Ep. 8 : Up. 190000 : bleu-detok : 50.3224 : new best
[2019-09-28 11:35:11] [valid] Ep. 8 : Up. 200000 : cross-entropy : 15.0449 : new best
[2019-09-28 11:35:41] [valid] Ep. 8 : Up. 200000 : perplexity : 2.81312 : new best
[2019-09-28 11:43:15] [valid] Ep. 8 : Up. 200000 : bleu-detok : 50.7313 : new best
[2019-09-28 12:40:09] [valid] Ep. 8 : Up. 210000 : cross-entropy : 14.8991 : new best
[2019-09-28 12:40:39] [valid] Ep. 8 : Up. 210000 : perplexity : 2.78498 : new best
[2019-09-28 12:48:09] [valid] Ep. 8 : Up. 210000 : bleu-detok : 50.7611 : new best
[2019-09-28 13:47:27] [valid] Ep. 9 : Up. 220000 : cross-entropy : 14.7256 : new best
[2019-09-28 13:47:57] [valid] Ep. 9 : Up. 220000 : perplexity : 2.75196 : new best
[2019-09-28 13:55:27] [valid] Ep. 9 : Up. 220000 : bleu-detok : 50.837 : new best
[2019-09-28 15:46:01] [valid] Ep. 9 : Up. 230000 : cross-entropy : 14.618 : new best
[2019-09-28 15:46:31] [valid] Ep. 9 : Up. 230000 : perplexity : 2.73172 : new best
[2019-09-28 15:54:04] [valid] Ep. 9 : Up. 230000 : bleu-detok : 51.0939 : new best
[2019-09-28 16:51:24] [valid] Ep. 9 : Up. 240000 : cross-entropy : 14.435 : new best
[2019-09-28 16:51:54] [valid] Ep. 9 : Up. 240000 : perplexity : 2.69754 : new best
[2019-09-28 16:59:23] [valid] Ep. 9 : Up. 240000 : bleu-detok : 51.2918 : new best
[2019-09-28 17:58:35] [valid] Ep. 10 : Up. 250000 : cross-entropy : 14.344 : new best
[2019-09-28 17:59:06] [valid] Ep. 10 : Up. 250000 : perplexity : 2.68075 : new best
[2019-09-28 18:06:33] [valid] Ep. 10 : Up. 250000 : bleu-detok : 51.3453 : new best
[2019-09-28 19:03:49] [valid] Ep. 10 : Up. 260000 : cross-entropy : 14.1891 : new best
[2019-09-28 19:04:19] [valid] Ep. 10 : Up. 260000 : perplexity : 2.65229 : new best
[2019-09-28 19:11:52] [valid] Ep. 10 : Up. 260000 : bleu-detok : 51.5726 : new best
[2019-09-28 20:11:19] [valid] Ep. 11 : Up. 270000 : cross-entropy : 14.049 : new best
[2019-09-28 20:11:49] [valid] Ep. 11 : Up. 270000 : perplexity : 2.6269 : new best
[2019-09-28 20:19:27] [valid] Ep. 11 : Up. 270000 : bleu-detok : 51.8939 : new best
[2019-09-28 21:16:23] [valid] Ep. 11 : Up. 280000 : cross-entropy : 13.9665 : new best
[2019-09-28 21:16:53] [valid] Ep. 11 : Up. 280000 : perplexity : 2.61209 : new best
[2019-09-28 21:24:20] [valid] Ep. 11 : Up. 280000 : bleu-detok : 51.7574 : stalled 1 times
[2019-09-28 22:21:40] [valid] Ep. 11 : Up. 290000 : cross-entropy : 13.8328 : new best
[2019-09-28 22:22:10] [valid] Ep. 11 : Up. 290000 : perplexity : 2.58819 : new best
[2019-09-28 22:29:54] [valid] Ep. 11 : Up. 290000 : bleu-detok : 52.018 : new best
[2019-09-28 23:29:14] [valid] Ep. 12 : Up. 300000 : cross-entropy : 13.7664 : new best
[2019-09-28 23:29:44] [valid] Ep. 12 : Up. 300000 : perplexity : 2.57636 : new best
[2019-09-28 23:37:21] [valid] Ep. 12 : Up. 300000 : bleu-detok : 52.2058 : new best
[2019-09-29 00:34:27] [valid] Ep. 12 : Up. 310000 : cross-entropy : 13.6493 : new best
[2019-09-29 00:34:57] [valid] Ep. 12 : Up. 310000 : perplexity : 2.55577 : new best
[2019-09-29 00:42:33] [valid] Ep. 12 : Up. 310000 : bleu-detok : 52.3595 : new best
[2019-09-29 01:39:45] [valid] Ep. 12 : Up. 320000 : cross-entropy : 13.5338 : new best
[2019-09-29 01:40:15] [valid] Ep. 12 : Up. 320000 : perplexity : 2.5355 : new best
[2019-09-29 01:47:47] [valid] Ep. 12 : Up. 320000 : bleu-detok : 52.411 : new best
[2019-09-29 02:47:03] [valid] Ep. 13 : Up. 330000 : cross-entropy : 13.493 : new best
[2019-09-29 02:47:33] [valid] Ep. 13 : Up. 330000 : perplexity : 2.52838 : new best
[2019-09-29 02:55:03] [valid] Ep. 13 : Up. 330000 : bleu-detok : 52.7322 : new best
[2019-09-29 03:52:19] [valid] Ep. 13 : Up. 340000 : cross-entropy : 13.3893 : new best
[2019-09-29 03:52:49] [valid] Ep. 13 : Up. 340000 : perplexity : 2.51041 : new best
[2019-09-29 04:00:20] [valid] Ep. 13 : Up. 340000 : bleu-detok : 52.7671 : new best
[2019-09-29 04:59:56] [valid] Ep. 14 : Up. 350000 : cross-entropy : 13.2554 : new best
[2019-09-29 05:00:26] [valid] Ep. 14 : Up. 350000 : perplexity : 2.48748 : new best
[2019-09-29 05:07:56] [valid] Ep. 14 : Up. 350000 : bleu-detok : 52.8286 : new best
[2019-09-29 06:04:54] [valid] Ep. 14 : Up. 360000 : cross-entropy : 13.2252 : new best
[2019-09-29 06:05:24] [valid] Ep. 14 : Up. 360000 : perplexity : 2.48228 : new best
[2019-09-29 06:12:57] [valid] Ep. 14 : Up. 360000 : bleu-detok : 52.9109 : new best
[2019-09-29 07:10:11] [valid] Ep. 14 : Up. 370000 : cross-entropy : 13.111 : new best
[2019-09-29 07:10:41] [valid] Ep. 14 : Up. 370000 : perplexity : 2.46286 : new best
[2019-09-29 07:18:14] [valid] Ep. 14 : Up. 370000 : bleu-detok : 53.0034 : new best
[2019-09-29 08:17:52] [valid] Ep. 15 : Up. 380000 : cross-entropy : 13.0484 : new best
[2019-09-29 08:18:22] [valid] Ep. 15 : Up. 380000 : perplexity : 2.45229 : new best
[2019-09-29 08:25:59] [valid] Ep. 15 : Up. 380000 : bleu-detok : 53.2406 : new best
[2019-09-29 09:23:07] [valid] Ep. 15 : Up. 390000 : cross-entropy : 12.9687 : new best
[2019-09-29 09:23:37] [valid] Ep. 15 : Up. 390000 : perplexity : 2.43889 : new best
[2019-09-29 09:31:11] [valid] Ep. 15 : Up. 390000 : bleu-detok : 53.365 : new best

Configuration:

workspace: 8000
log-level: info
quiet: false
quiet-translation: false
seed: 1111
clip-gemm: 0
interpolate-env-vars: false
relative-paths: false
model: model/model.npz
ignore-model-config: false
type: transformer
dim-vocabs:
- 32000
- 32000
dim-emb: 512
dim-rnn: 1024
enc-type: bidirectional
enc-cell: gru
enc-cell-depth: 1
enc-depth: 6
dec-cell: gru
dec-cell-base-depth: 2
dec-cell-high-depth: 1
dec-depth: 6
skip: false
layer-normalization: false
right-left: false
best-deep: false
tied-embeddings: true
tied-embeddings-src: false
tied-embeddings-all: false
transformer-heads: 16
transformer-no-projection: false
transformer-dim-ffn: 4096
transformer-ffn-depth: 2
transformer-ffn-activation: swish
transformer-dim-aan: 4096
transformer-aan-depth: 2
transformer-aan-activation: swish
transformer-aan-nogate: false
transformer-decoder-autoreg: self-attention
transformer-tied-layers: []
transformer-guided-alignment-layer: last
transformer-preprocess: ""
transformer-postprocess-emb: d
transformer-postprocess: dan
dropout-rnn: 0
dropout-src: 0
dropout-trg: 0
grad-dropping-rate: 0
grad-dropping-momentum: 0
grad-dropping-warmup: 100
transformer-dropout: 0.1
transformer-dropout-attention: 0
transformer-dropout-ffn: 0
cost-type: ce-mean
overwrite: true
no-reload: false
train-sets:
- data/en-zh/corpus.en
- data/en-zh/corpus.zh
vocabs:
- model/vocab.enzh.spm
- model/vocab.enzh.spm
sentencepiece-alphas: []
sentencepiece-options: --normalization_rule_tsv=data/tsv/nmt_nfkc.tsv --split_by_unicode_script=false
sentencepiece-max-lines: 10000000
after-epochs: 0
after-batches: 0
disp-freq: 1000
disp-first: 0
disp-label-counts: false
save-freq: 10000
max-length: 200
max-length-crop: false
no-shuffle: false
no-restore-corpus: false
tempdir: /tmp
sqlite: ""
sqlite-drop: false
devices:
- 0
no-nccl: false
cpu-threads: 0
mini-batch: 1000
mini-batch-words: 0
mini-batch-fit: true
mini-batch-fit-step: 10
maxi-batch: 1000
maxi-batch-sort: trg
shuffle-in-ram: false
optimizer: adam
optimizer-delay: 1
sync-sgd: true
learn-rate: 0.0003
lr-report: true
lr-decay: 0
lr-decay-strategy: epoch+stalled
lr-decay-start:
- 10
- 1
lr-decay-freq: 50000
lr-decay-reset-optimizer: false
lr-decay-repeat-warmup: false
lr-decay-inv-sqrt: 16000
lr-warmup: 16000
lr-warmup-start-rate: 0
lr-warmup-cycle: false
lr-warmup-at-reload: false
label-smoothing: 0.1
clip-norm: 5
exponential-smoothing: 0.0001
guided-alignment: none
guided-alignment-cost: mse
guided-alignment-weight: 0.1
data-weighting-type: sentence
embedding-normalization: false
embedding-fix-src: false
embedding-fix-trg: false
multi-node: false
multi-node-overlap: true
ulr: false
ulr-query-vectors: ""
ulr-keys-vectors: ""
ulr-trainable-transformation: false
ulr-dim-emb: 0
ulr-dropout: 0
ulr-softmax-temperature: 1
valid-freq: 10000
valid-metrics:
- cross-entropy
- perplexity
- bleu-detok
early-stopping: 10
beam-size: 6
normalize: 0.6
max-length-factor: 3
word-penalty: 0
allow-unk: false
n-best: false
valid-mini-batch: 64
valid-max-length: 1000
keep-best: true
log: model/train.log
optimizer-params:
- 0.9
- 0.98
- 1e-09
valid-sets:
- data/en-zh/corpus_dev.en
- data/en-zh/corpus_dev.zh
valid-log: model/valid.log
version: v1.7.6 1d4ba73 2019-05-11 17:16:31 +0100

snukky commented 4 years ago

Could you provide more details what does it mean that the model does not translate long sentences? There is a segfault or no output produced? Is it for a single sentence or do you translate a file?

The marian-decoder has the --max-length option, which by default is 1000. I guess, your sentences are not that long after subword segmentation?

adjouama commented 4 years ago

Thank you for the quick answer and sorry for the lack of information. Basically, the output stays the same as the input. Sometimes, it translates few words (see example below of the output);

The World Telecommunication/ICT indicators database on USB Key and online contains time series data for the years 1960, 1965, 1970 and year from 1975 to 2018 for more than 180 telecommunication/ICT statistics covering fixed-phone networks, mobile-cellular telephone subscriber, quality of service, Internet (including fixed- and mobile broadband subscriber data), traffic, staff, price, investment, investment and investment on ICT access and use by home and persons. Sred population,宏 economic and broadcasting statistics are also included. Data for over 200 economic are available.

I send my long paragraph to marian-server as a one sentence. Is that related to --max-length parameter in the training process ?

Note that the short sentences gets translated perfectly with a very good quality.

Thank you in advance,

adjouama commented 4 years ago

Here is another example:

Input:

Roborace, a sports media business developing completely new forms of autonomous motorsport, also established ADA (Autonomous Drivers Alliance), a non-profit association focused on contributing to global action in the interests of road safety – the initial outlines of which were shared with the UK CAV industry during Goodwood.

Output:

Roborace, a sports media business developing complete new form of 自主机动车, also established ADA (Autonomous Drivers Alliance), a其非营利协会主要集中在为道路安全做出贡献的全球性行动方面 – the initial outline of which were shared with the UK CAV industry during goodwood.

adjouama commented 4 years ago

Issue solved after playing around vocabulary size. Thanks

marian-nmt / marian

Transformers | decoding long sentence fails #293