twgo / siann1-hak8_boo5-hing5

聲學模型訓練
MIT License
1 stars 1 forks source link

TW01+02_8k 仝語者 34.94 有過怪怪der #46

Open leo424y opened 6 years ago

leo424y commented 6 years ago

可略,看 8k alaw 的結果

sih4sing5hong5 commented 6 years ago

因為這是系統性的大問題,我揣時間看覓

leo424y commented 6 years ago

或許只是沒有alaw的問題? https://jenkins.iis.sinica.edu.tw/job/gi2-gian5_boo5-hing5/98 有alaw SER掉到

108.36!

8K alaw 訓練與測試

訓練分支 測試分支 SER%
TW01+02 仝語者 35.53
TW01+02 仝語者_8K_alaw 108.36
TW01+02_8k_alaw 仝語者 37.14
TW01+02_8k_alaw 仝語者_8K_alaw
sih4sing5hong5 commented 6 years ago

問一下問題,

TW01+02_8k_alaw 仝語者 37.14

佇訓練make_mfcc時,訓練音檔的頻率是幾Hz? conf/mfcc.conf咧? 佇試驗make_mfcc時,試驗音檔的頻率是幾Hz? conf/mfcc.conf咧?

leo424y commented 6 years ago

訓練 https://github.com/twgo/siann1-hak8_boo5-hing5/blob/2c61fd50e9a141d79e7cd8feaf6f41f02c336a87/Dockerfile

8000Hz

--use-energy=false # only non-default option. --sample-frequency=8000 --allow_downsample=true

試驗 https://github.com/twgo/gi2-gian5_boo5-hing5/blob/801516998495c2a63499274b73d17201e6e10002/Dockerfile

8000 Hz 不對不對 應是16000 Hz

--use-energy=false # only non-default option. --sample-frequency=8000 --allow_downsample=true

忘了改回來!! 結果不對!

應是 --use-energy=false # only non-default option. --sample-frequency=16000

感謝隊長一針見血

有錯請指出

sih4sing5hong5 commented 6 years ago

仝一組實驗,--sample-frequency應該愛仝款

所以--sample-frequency=8000,有的實驗應該無法度做 大部份實驗應該攏佇--sample-frequency=16000做較tioh

sih4sing5hong5 commented 6 years ago

揣著--ah

因為conf/mfcc.conf內底有allow_downsample=true 所以16k的試驗會變做8k

8k實驗應該是5種,頭前4个攏佇16K的情形下算mfcc,上尾一種才是8k的環境算mfcc

訓練分支tw01+tw02 測試分支tw01Test SER%
TW01+02(16k) 仝語者(16k) 35.53
TW01+02(16k) 仝語者(16k=>8k=>16k) 108.36
TW01+02(16k=>8k=>16k) 仝語者(16k) 37.14
TW01+02(16k=>8k=>16k) 仝語者(16k=>8k=>16k)
TW01+02(16k=>8k) 仝語者(16k=>8k)

若是你感覺會使,請你寫出來a-alaw愛做啥物實驗~

leo424y commented 6 years ago

用allow_downsample是因為之前跑8k噴錯的提示,不加不會過。

https://github.com/twgo/siann1-hak8_boo5-hing5/issues/43#issuecomment-399368836

#轉檔scripts看起來都只有降到8k
8k
RUN sed -i -z 's/\n/avconv -i - -f wav -ar 8000 - \|\n/g' $KALDI_S5C/data/train/wav.scp

8k a-law
RUN sed -i -z 's/\n/avconv -i - -f alaw -ar 8000 - | avconv -f alaw -ar 8000 -i - -f wav -ar 8000 -\|\n/g' $KALDI_S5C/data/train/wav.scp

可以先向你確認,我這個做法與理解對嗎?

感謝隊長釋疑

目前這樣有做的含8K, 8K alaw,結果如下:


模擬電話訓練與測試,有差異

訓練分支 測試分支 SER% #
TW01+02 仝語者 35.53 #74
TW01+02 仝語者_8K 108.76 #96
TW01+02 仝語者_8K_alaw 108.36 #98
TW01+02_8k_alaw 仝語者 114.13 #100

模擬電話訓練與測試,無差異

訓練分支 測試分支 SER% #
TW01+02 仝語者 35.53 #74
TW01+02_8k 仝語者 34.94 #88
TW01+02_8k 仝語者_8K 35.02 #92
TW01+02_8k 仝語者_8K_alaw 34.94 #101
TW01+02_8k_alaw 仝語者 37.14 #97
TW01+02_8k_alaw 仝語者_8K 37.26 #102
TW01+02_8k_alaw 仝語者_8K_alaw 36.71 #99

ERROR (compute-mfcc-feats[5.4.407~1401-aca9]:ComputeFeatures():feat/feature-common-inl.h:41) Waveform and config sample Frequency mismatch: 16000 .vs 8000 ( use --allow_downsample=true option to allow downsampling the waveform).

sih4sing5hong5 commented 6 years ago

--allow_downsample=true

莫用--allow_downsample=true

ERROR (compute-mfcc-feats[5.4.407~1401-aca9]:ComputeFeatures():feat/feature-common-inl.h:41) Waveform and config sample Frequency mismatch: 16000 .vs 8000 ( use --allow_downsample=true option to allow downsampling the waveform).

你解說一下這个錯誤資訊是啥物意思

在這環境底下做的都是8k的環境算mfcc?

著,16k的wav 嘛會downsample到8k

我用的轉檔都是script(16k=>8k)?

(16k=>8k=>16k)的script我有做過嗎? 無

leo424y commented 6 years ago

Waveform and config sample Frequency mismatch: 16000 .vs 8000 就是我轉成8k但config還在16k所以不給過 不用 --allow_downsample=true 那麼就是要轉回 16k才會符合

--use-energy=false 
--sample-frequency=16000

要轉回16k應在轉檔時再加上

avconv -f wav -ar 8000 -i - -f wav -ar 16000

那麼還沒做要做的實驗有

訓練分支tw01+tw02 測試分支tw01Test SER%
TW01+02(16k) 仝語者8k(16k=>8k=>16k)
TW01+02(16k) 仝語者8k_a-law(16k=>8k=>16k)
TW01+02_8k(16k=>8k=>16k) 仝語者(16k)
TW01+02_8k(16k=>8k=>16k) 仝語者_8k(16k=>8k=>16k)
TW01+02_8k(16k=>8k=>16k) 仝語者_8k_a-law(16k=>8k=>16k)
TW01+02_8k_a-law(16k=>8k=>16k) 仝語者(16k)
TW01+02_8k_a-law(16k=>8k=>16k) 仝語者_8k(16k=>8k=>16k)
TW01+02_8k_a-law(16k=>8k=>16k) 仝語者_8k_a-law(16k=>8k=>16k)

mfcc.conf都是

--use-energy=false 
--sample-frequency=16000

若有錯誤請隊長指正,謝謝

sih4sing5hong5 commented 6 years ago

著!

sih4sing5hong5 commented 6 years ago

閣有8k的mfcc環境實驗通做,mfcc.conf愛改做--sample-frequency=8000

訓練分支tw01+tw02 測試分支tw01Test SER%
TW01+02_8k(16k=>8k) 仝語者_8k(16k=>8k)
TW01+02_8k(16k=>8k) 仝語者_8k_a-law(16k=>8k)
leo424y commented 6 years ago

那麼我開始開新branch 來接 上面這兩個跟 #92 #101 有異嗎?

sih4sing5hong5 commented 6 years ago

101AD會使

92無顯示訓練資料? 2018-07-04 10 15 36

leo424y commented 6 years ago

92 手動跑的 上游 tw01+tw02_8k FROM dockerhub.iis.sinica.edu.tw/siann1-hak8_boo5-hing5:96 已補入註記

sih4sing5hong5 commented 6 years ago

我減講兩个實驗

訓練分支tw01+tw02 測試分支tw01Test SER%
TW01+02_8k(16k=>8k) 仝語者_8k(16k=>8k)
TW01+02_8k(16k=>8k) 仝語者_8k_a-law(16k=>8k)
TW01+02_8k_a-law(16k=>8k) 仝語者_8k(16k=>8k)
TW01+02_8k_a-law(16k=>8k) 仝語者_8k_a-law(16k=>8k)
leo424y commented 6 years ago

上週開完會有把8k,8k a-law 跑過,不知道是不是隊長要的

訓練分支tw01+tw02 測試分支tw01Test SER% #
TW01+02_8k(16k=>8k) 仝語者_8k(16k=>8k) 35.02 #92
TW01+02_8k(16k=>8k) 仝語者_8k_a-law(16k=>8k) 34.94 #101
TW01+02_8k_a-law(16k=>8k) 仝語者_8k(16k=>8k) 37.26 #102
TW01+02_8k_a-law(16k=>8k) 仝語者_8k_a-law(16k=>8k) 36.71 #99
sih4sing5hong5 commented 6 years ago

著,我有入去看Dockerfile矣,這4个攏是著的