训练出错 - Githubissues

jasonTuZq commented 7 years ago

lz，你好，我运行你的代码，结果在 train.sh这步出错了，模型训练未能进行下去，请问你知道是什么情况吗？求助，谢谢！ steps/train_ctc_parallel.sh --add-deltas true --num-sequence 10 --learn-rate 0.00004 --report-step 10 --halving-after-epoch 12 --feats-tmpdir exp/model_l4_c320/XXXXX data/train data/dev exp/model_l4_c320 feat-to-len scp:data/train/feats.scp ark,t:- feat-to-len scp:data/dev/feats.scp ark,t:- copy-feats 'ark,s,cs:apply-cmvn --norm-vars=true --utt2spk=ark:data/train/utt2spk scp:data/train/cmvn.scp scp:exp/model_l4_c320/train.scp ark:- |' ark,scp:exp/model_l4_c320/Y7MuG/train.ark,exp/model_l4_c320/train_local.scp apply-cmvn --norm-vars=true --utt2spk=ark:data/train/utt2spk scp:data/train/cmvn.scp scp:exp/model_l4_c320/train.scp ark:- LOG (apply-cmvn:main():apply-cmvn.cc:129) Applied cepstral mean and variance normalization to 10000 utterances, errors on 0 LOG (copy-feats:main():copy-feats.cc:100) Copied 10000 feature matrices. copy-feats 'ark,s,cs:apply-cmvn --norm-vars=true --utt2spk=ark:data/dev/utt2spk scp:data/dev/cmvn.scp scp:exp/model_l4_c320/cv.scp ark:- |' ark,scp:exp/model_l4_c320/Y7MuG/cv.ark,exp/model_l4_c320/cv_local.scp apply-cmvn --norm-vars=true --utt2spk=ark:data/dev/utt2spk scp:data/dev/cmvn.scp scp:exp/model_l4_c320/cv.scp ark:- LOG (apply-cmvn:main():apply-cmvn.cc:129) Applied cepstral mean and variance normalization to 893 utterances, errors on 0 LOG (copy-feats:main():copy-feats.cc:100) Copied 893 feature matrices. Initializing model as exp/model_l4_c320/nnet/nnet.iter0 TRAINING STARTS [2017-Jun-15 11:38:32] [NOTE] TOKEN_ACCURACY refers to token accuracy, i.e., (1.0 - token_error_rate). EPOCH 25 RUNNING ... Removing features tmpdir exp/model_l4_c320/Y7MuG @ 311Ubuntu cv.ark train.ark

Sundy1219 commented 7 years ago

没看到你报错的点啊@jasonTuZq

jasonTuZq commented 7 years ago

LOG (apply-cmvn:main():apply-cmvn.cc:129) Applied cepstral mean and variance normalization to 893 utterances, errors on 0 这个不是错误吗？而且训练过程没有进行完就退出了，nnet目录下就只有一个 nnet.iter0 文件？请问是怎么回事呢？

Sundy1219 commented 7 years ago

nnet目录下，不止一个文件，nnet.iter0，是初始的网络参数。其中文件的个数等于训练的的周期数。你应该在数据准备中有bug，单步运行调试@jasonTuZq

jasonTuZq commented 7 years ago

请问你数据是下载这个 https://pan.baidu.com/s/1hqKwE00#list/path=%2FCSLT%20public%20data&parentPath=%2F 里面的 thchs30-openslr 的吗？还有请问你使用的 lexicon 和 LM 文件是来自这个目录下的 thchs30-openslr/data_thchs30/lm_word/ 下的 lexicon.txt 和 word.3gram.lm 的吗？

Sundy1219 commented 7 years ago

是这里的数据，字典是这里面的，不过语言模型是自己训练的@jasonTuZq

fantasyoooo commented 7 years ago

Model Training这里出错了...

Traceback (most recent call last): File "utils/prep_ctc_trans.py", line 75, in out_line += dict[unk_word] + ' ' KeyError: '' Traceback (most recent call last): File "utils/prep_ctc_trans.py", line 75, in out_line += dict[unk_word] + ' ' KeyError: ''

请问这是怎么一回事..

sereneeye commented 6 years ago

我也遇到这个问题，应该是由lexicon.txt生成的字典与word.3gram.lm生成的词序列进行比对的时候，发现有词不存在于生成的字典中导致的keyerror错误。建议把模型训练思路和数据准备需要注意的地方列清楚，比如哪些文件需要一一对应，如果不能对应，有没有容错机制。

fantasyoooo commented 6 years ago

@jasonTuZq 你好，你的这个问题是怎么解决的..？我之前完整跑完，现在再跑出现了和你一样的情况

fantasyoooo commented 6 years ago

@sereneeye 你跑得到的wer是多少..

minecraftbiu commented 6 years ago

eesen thch30

13265170340 commented 6 years ago

@fantasyoooo 我训练的时候也出现这种情况

bolt163 commented 6 years ago

同遇到，问题点上没人回答？各种坑。。。这开源的东西放出来何意义？

mrzyzhaozeyu commented 6 years ago

这个nnet.iter24在nnet文件夹里面没有，shell脚本里面是怎么生成这些网络文件的呢？我找不到 @Sundy1219

ferb2015 commented 6 years ago

您好，请问报错# compute-fbank-feats --verbose=2 --config=conf/fbank.conf scp,p:exp/make_fbank/train/wav.10.scp ark:- | copy-feats --compress=true ark:- ark,scp:/mnt/my-data/eesen/asr_egs/eesen-for-thchs30/fbank/raw_fbank_train.10.ark,/mnt/my-data/eesen/asr_egs/eesen-for-thchs30/fbank/raw_fbank_train.10.scp

bash: line 1: copy-feats: command not found bash: line 1: compute-fbank-feats: command not found 这是没编译好，请问eesen已经tools/里make了，src里./configure和make depend make了，还是显示没编译好，要怎么处理呢？万分感激。

xdcesc commented 6 years ago

坑太多了，这种东西上传有何意义？

Sundy1219 / eesen-for-thchs30

训练出错 #1