Open leo424y opened 6 years ago
因為這是系統性的大問題,我揣時間看覓
或許只是沒有alaw的問題? https://jenkins.iis.sinica.edu.tw/job/gi2-gian5_boo5-hing5/98 有alaw SER掉到
108.36!
訓練分支 | 測試分支 | SER% |
---|---|---|
TW01+02 | 仝語者 | 35.53 |
TW01+02 | 仝語者_8K_alaw | 108.36 |
TW01+02_8k_alaw | 仝語者 | 37.14 |
TW01+02_8k_alaw | 仝語者_8K_alaw |
問一下問題,
TW01+02_8k_alaw | 仝語者 | 37.14 |
---|
佇訓練make_mfcc
時,訓練音檔的頻率是幾Hz? conf/mfcc.conf
咧?
佇試驗make_mfcc
時,試驗音檔的頻率是幾Hz? conf/mfcc.conf
咧?
8000Hz
--use-energy=false # only non-default option. --sample-frequency=8000 --allow_downsample=true
8000 Hz 不對不對 應是16000 Hz
--use-energy=false # only non-default option. --sample-frequency=8000 --allow_downsample=true
忘了改回來!! 結果不對!
應是 --use-energy=false # only non-default option. --sample-frequency=16000
感謝隊長一針見血
有錯請指出
仝一組實驗,--sample-frequency
應該愛仝款
所以--sample-frequency=8000
,有的實驗應該無法度做
大部份實驗應該攏佇--sample-frequency=16000
做較tioh
揣著--ah
因為conf/mfcc.conf
內底有allow_downsample=true
所以16k的試驗會變做8k
8k實驗應該是5種,頭前4个攏佇16K的情形下算mfcc,上尾一種才是8k的環境算mfcc
訓練分支tw01+tw02 | 測試分支tw01Test | SER% |
---|---|---|
TW01+02(16k) | 仝語者(16k) | 35.53 |
TW01+02(16k) | 仝語者(16k=>8k=>16k) | 108.36 |
TW01+02(16k=>8k=>16k) | 仝語者(16k) | 37.14 |
TW01+02(16k=>8k=>16k) | 仝語者(16k=>8k=>16k) | |
TW01+02(16k=>8k) | 仝語者(16k=>8k) |
若是你感覺會使,請你寫出來a-alaw愛做啥物實驗~
用allow_downsample是因為之前跑8k噴錯的提示,不加不會過。
https://github.com/twgo/siann1-hak8_boo5-hing5/issues/43#issuecomment-399368836
#轉檔scripts看起來都只有降到8k
8k
RUN sed -i -z 's/\n/avconv -i - -f wav -ar 8000 - \|\n/g' $KALDI_S5C/data/train/wav.scp
8k a-law
RUN sed -i -z 's/\n/avconv -i - -f alaw -ar 8000 - | avconv -f alaw -ar 8000 -i - -f wav -ar 8000 -\|\n/g' $KALDI_S5C/data/train/wav.scp
可以先向你確認,我這個做法與理解對嗎?
--use-energy=false
--sample-frequency=8000
--allow_downsample=true
感謝隊長釋疑
目前這樣有做的含8K, 8K alaw,結果如下:
訓練分支 | 測試分支 | SER% | # |
---|---|---|---|
TW01+02 | 仝語者 | 35.53 | #74 |
TW01+02 | 仝語者_8K | 108.76 | #96 |
TW01+02 | 仝語者_8K_alaw | 108.36 | #98 |
TW01+02_8k_alaw | 仝語者 | 114.13 | #100 |
訓練分支 | 測試分支 | SER% | # |
---|---|---|---|
TW01+02 | 仝語者 | 35.53 | #74 |
TW01+02_8k | 仝語者 | 34.94 | #88 |
TW01+02_8k | 仝語者_8K | 35.02 | #92 |
TW01+02_8k | 仝語者_8K_alaw | 34.94 | #101 |
TW01+02_8k_alaw | 仝語者 | 37.14 | #97 |
TW01+02_8k_alaw | 仝語者_8K | 37.26 | #102 |
TW01+02_8k_alaw | 仝語者_8K_alaw | 36.71 | #99 |
ERROR (compute-mfcc-feats[5.4.407~1401-aca9]:ComputeFeatures():feat/feature-common-inl.h:41) Waveform and config sample Frequency mismatch: 16000 .vs 8000 ( use --allow_downsample=true option to allow downsampling the waveform).
--allow_downsample=true
莫用--allow_downsample=true
ERROR (compute-mfcc-feats[5.4.407~1401-aca9]:ComputeFeatures():feat/feature-common-inl.h:41) Waveform and config sample Frequency mismatch: 16000 .vs 8000 ( use --allow_downsample=true option to allow downsampling the waveform).
你解說一下這个錯誤資訊是啥物意思
在這環境底下做的都是8k的環境算mfcc?
著,16k的wav 嘛會downsample到8k
我用的轉檔都是script(16k=>8k)?
著
(16k=>8k=>16k)的script我有做過嗎? 無
Waveform and config sample Frequency mismatch: 16000 .vs 8000
就是我轉成8k但config還在16k所以不給過
不用 --allow_downsample=true 那麼就是要轉回 16k才會符合
--use-energy=false
--sample-frequency=16000
要轉回16k應在轉檔時再加上
avconv -f wav -ar 8000 -i - -f wav -ar 16000
那麼還沒做要做的實驗有
訓練分支tw01+tw02 | 測試分支tw01Test | SER% |
---|---|---|
TW01+02(16k) | 仝語者8k(16k=>8k=>16k) | |
TW01+02(16k) | 仝語者8k_a-law(16k=>8k=>16k) | |
TW01+02_8k(16k=>8k=>16k) | 仝語者(16k) | |
TW01+02_8k(16k=>8k=>16k) | 仝語者_8k(16k=>8k=>16k) | |
TW01+02_8k(16k=>8k=>16k) | 仝語者_8k_a-law(16k=>8k=>16k) | |
TW01+02_8k_a-law(16k=>8k=>16k) | 仝語者(16k) | |
TW01+02_8k_a-law(16k=>8k=>16k) | 仝語者_8k(16k=>8k=>16k) | |
TW01+02_8k_a-law(16k=>8k=>16k) | 仝語者_8k_a-law(16k=>8k=>16k) |
且
mfcc.conf都是
--use-energy=false
--sample-frequency=16000
若有錯誤請隊長指正,謝謝
著!
閣有8k的mfcc環境實驗通做,mfcc.conf
愛改做--sample-frequency=8000
訓練分支tw01+tw02 | 測試分支tw01Test | SER% |
---|---|---|
TW01+02_8k(16k=>8k) | 仝語者_8k(16k=>8k) | |
TW01+02_8k(16k=>8k) | 仝語者_8k_a-law(16k=>8k) |
那麼我開始開新branch 來接 上面這兩個跟 #92 #101 有異嗎?
101AD會使
92無顯示訓練資料?
92 手動跑的 上游 tw01+tw02_8k FROM dockerhub.iis.sinica.edu.tw/siann1-hak8_boo5-hing5:96 已補入註記
嗯
我減講兩个實驗
訓練分支tw01+tw02 | 測試分支tw01Test | SER% |
---|---|---|
TW01+02_8k(16k=>8k) | 仝語者_8k(16k=>8k) | |
TW01+02_8k(16k=>8k) | 仝語者_8k_a-law(16k=>8k) | |
TW01+02_8k_a-law(16k=>8k) | 仝語者_8k(16k=>8k) | |
TW01+02_8k_a-law(16k=>8k) | 仝語者_8k_a-law(16k=>8k) |
上週開完會有把8k,8k a-law 跑過,不知道是不是隊長要的
訓練分支tw01+tw02 | 測試分支tw01Test | SER% | # |
---|---|---|---|
TW01+02_8k(16k=>8k) | 仝語者_8k(16k=>8k) | 35.02 | #92 |
TW01+02_8k(16k=>8k) | 仝語者_8k_a-law(16k=>8k) | 34.94 | #101 |
TW01+02_8k_a-law(16k=>8k) | 仝語者_8k(16k=>8k) | 37.26 | #102 |
TW01+02_8k_a-law(16k=>8k) | 仝語者_8k_a-law(16k=>8k) | 36.71 | #99 |
著,我有入去看Dockerfile矣,這4个攏是著的
可略,看 8k alaw 的結果