Xflick / EEND_PyTorch

A PyTorch implementation of End-to-End Neural Diarization
MIT License
98 stars 15 forks source link

Bad result on AMI dataset #6

Open ChokJohn opened 3 years ago

ChokJohn commented 3 years ago

I used your pre training model and then trained in the AMI train dataset. Then test the model in AMI test. The config of adaption list bellow:

adapt options

sampling_rate: 8000 frame_size: 200 frame_shift: 80 model_type: Transformer max_epochs: 100 gradclip: 5 batchsize: 64 hidden_size: 256 num_frames: 500 num_speakers: 5 input_transform: logmel23_mn optimizer: adam lr: 1e-5 context_size: 7 subsampling: 10 gradient_accumulation_steps: 1 transformer_encoder_n_heads: 4 transformer_encoder_n_layers: 4 transformer_encoder_dropout: 0.1 noam_warmup_steps: 100000 seed: 777 gpu: 1

During training and testing, the of AMI data set is down sampled to 8kHz, and num_speakers is adjusted from 2 to 5.(The number of speakers in AMI dataset is between 2-5)

The final training loss is 0.09410,and the best DER for the dev set is 28.64. The best test DER is 78.72. It seem that the model cannot distinguish different speakers.

part of result rttm

SPEAKER EN2002a 1 0.00 260.00 EN2002a_0 SPEAKER EN2002a 1 260.06 0.06 EN2002a_0 SPEAKER EN2002a 1 260.15 0.02 EN2002a_0 SPEAKER EN2002a 1 260.24 0.01 EN2002a_0 SPEAKER EN2002a 1 260.68 0.01 EN2002a_0 SPEAKER EN2002a 1 261.21 0.04 EN2002a_0 SPEAKER EN2002a 1 261.28 0.12 EN2002a_0 SPEAKER EN2002a 1 261.41 0.06 EN2002a_0 SPEAKER EN2002a 1 261.76 0.09 EN2002a_0 SPEAKER EN2002a 1 261.86 0.08 EN2002a_0 SPEAKER EN2002a 1 264.35 0.01 EN2002a_0 SPEAKER EN2002a 1 264.41 0.03 EN2002a_0 SPEAKER EN2002a 1 264.45 0.03 EN2002a_0 SPEAKER EN2002a 1 264.66 0.01 EN2002a_0 SPEAKER EN2002a 1 264.85 0.01 EN2002a_0 SPEAKER EN2002a 1 264.87 0.01 EN2002a_0 SPEAKER EN2002a 1 264.89 0.04 EN2002a_0 SPEAKER EN2002a 1 264.94 0.01 EN2002a_0 SPEAKER EN2002a 1 265.34 0.08 EN2002a_0 SPEAKER EN2002a 1 265.43 0.07 EN2002a_0 SPEAKER EN2002a 1 266.27 0.01 EN2002a_0 SPEAKER EN2002a 1 266.30 0.01 EN2002a_0 SPEAKER EN2002a 1 266.34 0.03 EN2002a_0 SPEAKER EN2002a 1 266.73 0.01 EN2002a_0 SPEAKER EN2002a 1 266.79 0.03 EN2002a_0 SPEAKER EN2002a 1 266.83 0.01 EN2002a_0 SPEAKER EN2002a 1 267.22 0.01 EN2002a_0 SPEAKER EN2002a 1 267.68 0.02 EN2002a_0 SPEAKER EN2002a 1 267.78 0.01 EN2002a_0 SPEAKER EN2002a 1 267.80 0.02 EN2002a_0 SPEAKER EN2002a 1 267.83 0.01 EN2002a_0 SPEAKER EN2002a 1 267.90 0.01 EN2002a_0 SPEAKER EN2002a 1 270.72 0.01 EN2002a_0 SPEAKER EN2002a 1 270.82 0.02 EN2002a_0 SPEAKER EN2002a 1 270.87 0.01 EN2002a_0 SPEAKER EN2002a 1 271.58 0.01 EN2002a_0 SPEAKER EN2002a 1 273.28 0.02 EN2002a_0 SPEAKER EN2002a 1 273.31 0.01 EN2002a_0 SPEAKER EN2002a 1 273.79 0.02 EN2002a_0 SPEAKER EN2002a 1 275.43 0.01 EN2002a_0 SPEAKER EN2002a 1 275.53 0.01 EN2002a_0 SPEAKER EN2002a 1 277.82 0.01 EN2002a_0 SPEAKER EN2002a 1 277.85 0.03 EN2002a_0 SPEAKER EN2002a 1 277.89 0.04 EN2002a_0 SPEAKER EN2002a 1 277.95 0.01 EN2002a_0 SPEAKER EN2002a 1 277.97 0.01 EN2002a_0 SPEAKER EN2002a 1 278.01 0.01 EN2002a_0 SPEAKER EN2002a 1 278.05 0.01 EN2002a_0 SPEAKER EN2002a 1 278.13 0.01 EN2002a_0 SPEAKER EN2002a 1 279.85 0.03 EN2002a_0 SPEAKER EN2002a 1 279.95 0.01 EN2002a_0 SPEAKER EN2002a 1 280.00 69.07 EN2002a_0 SPEAKER EN2002a 1 349.08 0.08 EN2002a_0 SPEAKER EN2002a 1 349.22 4.80 EN2002a_0 SPEAKER EN2002a 1 354.30 185.70 EN2002a_0 SPEAKER EN2002a 1 560.00 21.10 EN2002a_0 SPEAKER EN2002a 1 581.11 0.09 EN2002a_0 SPEAKER EN2002a 1 581.22 0.03 EN2002a_0 SPEAKER EN2002a 1 581.34 0.01 EN2002a_0 SPEAKER EN2002a 1 581.38 0.01 EN2002a_0 SPEAKER EN2002a 1 581.40 1.32 EN2002a_0 SPEAKER EN2002a 1 582.73 0.02 EN2002a_0 SPEAKER EN2002a 1 582.77 1.36 EN2002a_0 SPEAKER EN2002a 1 584.15 0.06 EN2002a_0 SPEAKER EN2002a 1 584.30 0.01 EN2002a_0 SPEAKER EN2002a 1 584.39 0.71 EN2002a_0 SPEAKER EN2002a 1 585.11 9.06 EN2002a_0 SPEAKER EN2002a 1 594.18 0.01 EN2002a_0 SPEAKER EN2002a 1 594.72 0.02 EN2002a_0 SPEAKER EN2002a 1 594.75 1.22 EN2002a_0 SPEAKER EN2002a 1 596.32 0.01 EN2002a_0 SPEAKER EN2002a 1 596.34 0.04 EN2002a_0 SPEAKER EN2002a 1 596.39 0.01 EN2002a_0 SPEAKER EN2002a 1 596.41 1.47 EN2002a_0 SPEAKER EN2002a 1 597.89 0.02 EN2002a_0 SPEAKER EN2002a 1 597.92 142.08 EN2002a_0 SPEAKER EN2002a 1 763.29 0.04 EN2002a_0 SPEAKER EN2002a 1 764.11 0.02 EN2002a_0 SPEAKER EN2002a 1 780.00 80.00 EN2002a_0 SPEAKER EN2002a 1 880.00 240.00 EN2002a_0 SPEAKER EN2002a 1 1140.00 300.00 EN2002a_0 SPEAKER EN2002a 1 1440.04 0.02 EN2002a_0 SPEAKER EN2002a 1 1440.15 0.01 EN2002a_0 SPEAKER EN2002a 1 1440.17 0.02 EN2002a_0 SPEAKER EN2002a 1 1440.22 0.02 EN2002a_0 SPEAKER EN2002a 1 1443.76 0.01 EN2002a_0 SPEAKER EN2002a 1 1445.36 0.03 EN2002a_0 SPEAKER EN2002a 1 1445.46 0.01 EN2002a_0 SPEAKER EN2002a 1 1447.33 0.01 EN2002a_0 SPEAKER EN2002a 1 1447.38 0.01 EN2002a_0 SPEAKER EN2002a 1 1447.41 0.03 EN2002a_0 SPEAKER EN2002a 1 1447.92 0.01 EN2002a_0 SPEAKER EN2002a 1 1447.98 0.03 EN2002a_0 SPEAKER EN2002a 1 1448.38 0.03 EN2002a_0 SPEAKER EN2002a 1 1449.49 0.03 EN2002a_0 SPEAKER EN2002a 1 1449.53 0.02 EN2002a_0 SPEAKER EN2002a 1 1449.59 0.01 EN2002a_0 SPEAKER EN2002a 1 1449.62 0.16 EN2002a_0 SPEAKER EN2002a 1 1449.90 0.01 EN2002a_0 SPEAKER EN2002a 1 1450.03 0.01 EN2002a_0 SPEAKER EN2002a 1 1450.24 0.01 EN2002a_0 SPEAKER EN2002a 1 1451.00 0.01 EN2002a_0 SPEAKER EN2002a 1 1451.10 0.01 EN2002a_0 SPEAKER EN2002a 1 1451.13 0.03 EN2002a_0 SPEAKER EN2002a 1 1451.24 0.01 EN2002a_0 SPEAKER EN2002a 1 1451.26 0.01 EN2002a_0 SPEAKER EN2002a 1 1451.39 0.02 EN2002a_0 SPEAKER EN2002a 1 1452.62 0.03 EN2002a_0 SPEAKER EN2002a 1 1452.71 0.06 EN2002a_0 SPEAKER EN2002a 1 1455.00 0.01 EN2002a_0 SPEAKER EN2002a 1 1455.06 0.03 EN2002a_0 SPEAKER EN2002a 1 1455.11 0.01 EN2002a_0 SPEAKER EN2002a 1 1455.37 0.02 EN2002a_0 SPEAKER EN2002a 1 1455.44 0.02 EN2002a_0 SPEAKER EN2002a 1 1455.66 0.01 EN2002a_0 SPEAKER EN2002a 1 1455.79 0.08 EN2002a_0 SPEAKER EN2002a 1 1455.90 0.06 EN2002a_0 SPEAKER EN2002a 1 1456.04 0.12 EN2002a_0 SPEAKER EN2002a 1 1456.20 0.02 EN2002a_0 SPEAKER EN2002a 1 1460.00 60.00 EN2002a_0 SPEAKER EN2002a 1 1540.00 80.06 EN2002a_0 SPEAKER EN2002a 1 1620.55 0.01 EN2002a_0 SPEAKER EN2002a 1 1620.60 0.06 EN2002a_0 SPEAKER EN2002a 1 1620.67 1.73 EN2002a_0 SPEAKER EN2002a 1 1622.43 0.14 EN2002a_0 SPEAKER EN2002a 1 1622.58 0.05 EN2002a_0 SPEAKER EN2002a 1 1622.69 0.01 EN2002a_0 SPEAKER EN2002a 1 1622.78 0.01 EN2002a_0 SPEAKER EN2002a 1 1622.82 0.01 EN2002a_0 SPEAKER EN2002a 1 1623.39 0.76 EN2002a_0 SPEAKER EN2002a 1 1624.77 0.04 EN2002a_0 SPEAKER EN2002a 1 1624.88 0.02 EN2002a_0 SPEAKER EN2002a 1 1624.99 0.01 EN2002a_0 SPEAKER EN2002a 1 1625.04 0.02 EN2002a_0 SPEAKER EN2002a 1 1625.07 0.04 EN2002a_0 SPEAKER EN2002a 1 1625.14 0.02 EN2002a_0 SPEAKER EN2002a 1 1625.17 0.03 EN2002a_0 SPEAKER EN2002a 1 1625.60 0.02 EN2002a_0 SPEAKER EN2002a 1 1625.63 0.19 EN2002a_0 SPEAKER EN2002a 1 1625.83 0.01 EN2002a_0 SPEAKER EN2002a 1 1625.85 0.02 EN2002a_0 SPEAKER EN2002a 1 1625.88 0.14 EN2002a_0 SPEAKER EN2002a 1 1626.03 0.01 EN2002a_0 SPEAKER EN2002a 1 1626.05 0.01 EN2002a_0 SPEAKER EN2002a 1 1626.08 0.01 EN2002a_0 SPEAKER EN2002a 1 1626.10 0.02 EN2002a_0 SPEAKER EN2002a 1 1626.15 0.03 EN2002a_0 SPEAKER EN2002a 1 1626.24 0.01 EN2002a_0 SPEAKER EN2002a 1 1626.26 0.04 EN2002a_0 SPEAKER EN2002a 1 1626.32 0.03 EN2002a_0 SPEAKER EN2002a 1 1626.36 0.01 EN2002a_0 SPEAKER EN2002a 1 1626.42 0.01 EN2002a_0 SPEAKER EN2002a 1 1626.45 0.01 EN2002a_0 SPEAKER EN2002a 1 1626.51 0.01 EN2002a_0 SPEAKER EN2002a 1 1626.53 0.03 EN2002a_0 SPEAKER EN2002a 1 1626.62 0.01 EN2002a_0 SPEAKER EN2002a 1 1626.73 0.01 EN2002a_0 SPEAKER EN2002a 1 1626.76 0.01 EN2002a_0 SPEAKER EN2002a 1 1626.83 0.04 EN2002a_0 SPEAKER EN2002a 1 1626.91 0.07 EN2002a_0 SPEAKER EN2002a 1 1626.99 0.01 EN2002a_0 SPEAKER EN2002a 1 1627.01 0.02 EN2002a_0 SPEAKER EN2002a 1 1627.04 0.07 EN2002a_0 SPEAKER EN2002a 1 1627.12 0.01 EN2002a_0 SPEAKER EN2002a 1 1627.16 0.01 EN2002a_0 SPEAKER EN2002a 1 1627.21 0.02 EN2002a_0 SPEAKER EN2002a 1 1627.29 0.02 EN2002a_0 SPEAKER EN2002a 1 1627.41 0.04 EN2002a_0 SPEAKER EN2002a 1 1627.47 0.08 EN2002a_0 SPEAKER EN2002a 1 1627.56 0.12 EN2002a_0 SPEAKER EN2002a 1 1627.69 0.03 EN2002a_0 SPEAKER EN2002a 1 1627.73 0.09 EN2002a_0 SPEAKER EN2002a 1 1627.99 0.01 EN2002a_0 SPEAKER EN2002a 1 1628.01 0.02 EN2002a_0 SPEAKER EN2002a 1 1628.06 0.05 EN2002a_0 SPEAKER EN2002a 1 1628.15 0.03 EN2002a_0 SPEAKER EN2002a 1 1628.19 0.54 EN2002a_0 SPEAKER EN2002a 1 1628.78 0.01 EN2002a_0 SPEAKER EN2002a 1 1629.00 0.01 EN2002a_0 SPEAKER EN2002a 1 1629.02 0.02 EN2002a_0 SPEAKER EN2002a 1 1629.05 0.07 EN2002a_0 SPEAKER EN2002a 1 1629.15 0.03 EN2002a_0 SPEAKER EN2002a 1 1629.19 0.08 EN2002a_0 SPEAKER EN2002a 1 1629.28 0.09 EN2002a_0 SPEAKER EN2002a 1 1629.40 0.05 EN2002a_0 SPEAKER EN2002a 1 1629.47 0.11 EN2002a_0 SPEAKER EN2002a 1 1629.61 0.05 EN2002a_0 SPEAKER EN2002a 1 1629.67 0.10 EN2002a_0 SPEAKER EN2002a 1 1629.96 0.01 EN2002a_0 SPEAKER EN2002a 1 1630.03 0.01 EN2002a_0 SPEAKER EN2002a 1 1630.05 0.01 EN2002a_0 SPEAKER EN2002a 1 1630.22 0.04 EN2002a_0 SPEAKER EN2002a 1 1630.94 0.05 EN2002a_0 SPEAKER EN2002a 1 1631.00 0.56 EN2002a_0 SPEAKER EN2002a 1 1631.57 0.03 EN2002a_0 SPEAKER EN2002a 1 1632.50 0.01 EN2002a_0 SPEAKER EN2002a 1 1632.52 0.36 EN2002a_0 SPEAKER EN2002a 1 1632.89 0.01 EN2002a_0 SPEAKER EN2002a 1 1632.93 0.05 EN2002a_0 SPEAKER EN2002a 1 1632.99 0.16 EN2002a_0 SPEAKER EN2002a 1 1633.18 0.85 EN2002a_0 SPEAKER EN2002a 1 1634.04 0.01 EN2002a_0 SPEAKER EN2002a 1 1635.14 0.01 EN2002a_0 SPEAKER EN2002a 1 1635.48 0.01 EN2002a_0 SPEAKER EN2002a 1 1635.58 0.01 EN2002a_0 SPEAKER EN2002a 1 1635.67 0.01 EN2002a_0 SPEAKER EN2002a 1 1635.79 0.01 EN2002a_0 SPEAKER EN2002a 1 1636.14 0.01 EN2002a_0 SPEAKER EN2002a 1 1636.22 0.01 EN2002a_0 SPEAKER EN2002a 1 1636.58 0.04 EN2002a_0 SPEAKER EN2002a 1 1636.63 0.03 EN2002a_0 SPEAKER EN2002a 1 1636.67 0.01 EN2002a_0 SPEAKER EN2002a 1 1636.69 0.01 EN2002a_0 SPEAKER EN2002a 1 1636.73 0.05 EN2002a_0 SPEAKER EN2002a 1 1636.79 0.02 EN2002a_0 SPEAKER EN2002a 1 1636.82 0.06 EN2002a_0 SPEAKER EN2002a 1 1637.48 0.01 EN2002a_0 SPEAKER EN2002a 1 1637.64 0.01 EN2002a_0 SPEAKER EN2002a 1 1637.73 0.02 EN2002a_0 SPEAKER EN2002a 1 1637.98 0.06 EN2002a_0 SPEAKER EN2002a 1 1638.06 0.08 EN2002a_0 SPEAKER EN2002a 1 1638.16 0.04 EN2002a_0 SPEAKER EN2002a 1 1638.22 0.39 EN2002a_0 SPEAKER EN2002a 1 1638.62 0.03 EN2002a_0 SPEAKER EN2002a 1 1638.67 0.07 EN2002a_0 SPEAKER EN2002a 1 1638.77 0.01 EN2002a_0 SPEAKER EN2002a 1 1638.81 1.19 EN2002a_0 SPEAKER EN2002a 1 1660.00 4.73 EN2002a_0 SPEAKER EN2002a 1 1664.74 0.08 EN2002a_0 SPEAKER EN2002a 1 1664.84 0.04 EN2002a_0 SPEAKER EN2002a 1 1664.89 120.39 EN2002a_0 SPEAKER EN2002a 1 1785.34 294.66 EN2002a_0 SPEAKER EN2002a 1 2098.67 0.01 EN2002a_0 SPEAKER EN2002a 1 2098.69 0.01 EN2002a_0 SPEAKER EN2002a 1 2098.74 0.01 EN2002a_0 SPEAKER EN2002a 1 2098.76 0.13 EN2002a_0 SPEAKER EN2002a 1 2098.96 0.01 EN2002a_0 SPEAKER EN2002a 1 2100.00 42.71 EN2002a_0

Xflick commented 3 years ago

As your result shows, the result on test set is way worse than the one on dev set, which suggests an overfitting problem. This is likely to happen for small datasets such as AMI. I believe the reason is because the model pretrained on 2-speaker dataset doesn't generalize well to 2~5 speaker datasets. You may would like to re-prepare simu dataset to match your test speaker number and re-train the model from scratch.