Closed madziszyn closed 4 years ago
Initial support here: https://github.com/BoneGoat/DSAlign
python align/align.py --output-max-cer 15 --loglevel 10 --audio data-sv/audio/6_tyskland_kott_app_25446c3_a96.wav --script data-sv/script/6_tyskland_kott_app_25446c3_a96.txt --aligned data-sv/aligned/aligned.json --tlog data-sv/aligned/transcript.log --stt-model-dir models/sv
DEBUG:root:Start
DEBUG:root:Looking for model files in "models/sv"...
Converting to lowercase and counting word occurrences ...
1it [00:00, 3125.41it/s]
Saving top 500000 words ...
Calculating word statistics ...
Your text file has 239 words in total
It has 156 unique words
Your top-500000 words are 100.0000 percent of all words
Your most common word "i" occurred 11 times
The least common word in your top-k is "arndt" with 1 times
The first word with 2 occurrences is "men" at place 32
Creating ARPA file ...
=== 1/5 Counting and sorting n-grams ===
Reading fd 3
----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
****************************************************************************************************
Unigram tokens 239 types 159
=== 2/5 Calculating and sorting adjusted counts ===
Chain sizes: 1:1908 2:1424671872 3:2671259904 4:4274015488 5:6232940032
Substituting fallback discounts for order 2: D1=0.5 D2=1 D3+=1.5
Substituting fallback discounts for order 3: D1=0.5 D2=1 D3+=1.5
Substituting fallback discounts for order 4: D1=0.5 D2=1 D3+=1.5
Statistics:
1 158 D1=0.828947 D2=0.469636 D3+=1.75658
2 229 D1=0.940426 D2=1.59696 D3+=3
3 1/237 D1=0.5 D2=1 D3+=1.5
4 0/237 D1=0.5 D2=1 D3+=1.5
5 0/236 D1=0.5 D2=1 D3+=1.5
Memory estimate for binary LM:
type B
probing 9672 assuming -p 1.5
probing 11692 assuming -r models -p 1.5
trie 5966 without quantization
trie 11770 assuming -q 8 -b 8 quantization
trie 6015 assuming -a 22 array pointer compression
trie 11818 assuming -a 22 -q 8 -b 8 array pointer compression and quantization
=== 3/5 Calculating and sorting initial probabilities ===
Chain sizes: 1:1896 2:3664 3:20 4:24 5:28
----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
####################################################################################################
=== 4/5 Calculating and writing order-interpolated probabilities ===
Chain sizes: 1:1896 2:3664 3:20 4:24 5:28
----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
=== 5/5 Writing ARPA model ===
----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
RSSMax:2574880768 kB user:0.419857 sys:0.7398 CPU:1.1597 real:1.20873
Filtering ARPA file using vocabulary of top-k words ...
Reading data-sv/script/6_tyskland_kott_app_25446c3_a96.txt.scorer.lm.arpa
----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
****************************************************************************************************
Building lm.binary ...
Reading data-sv/script/6_tyskland_kott_app_25446c3_a96.txt.scorer.lm_filtered.arpa
----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
****************************************************************************************************
Identifying n-grams omitted by SRI
----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
****************************************************************************************************
Quantizing
----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
****************************************************************************************************
Writing trie
----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
****************************************************************************************************
SUCCESS
156 unique words read from vocabulary file.
Doesn't look like a character based model.
Package created in data-sv/script/6_tyskland_kott_app_25446c3_a96.txt.scorer
DEBUG:root:Loading acoustic model from "models/sv/output_graph.pbmm", alphabet from "models/sv/alphabet.txt" and scorer from "data-sv/script/6_tyskland_kott_app_25446c3_a96.txt.scorer"...
DEBUG:root:Transcribing VAD segments...
INFO:root:VAD splitting
19 (elapsed: 00:00:00, speed: 352.90 it/s)
TensorFlow: v1.15.0-24-gceb46aae58
DeepSpeech: v0.7.1-0-g2e9c281d
2020-06-20 15:05:32.772552: I tensorflow/core/platform/cpu_feature_guard.cc:142] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 FMA
DEBUG:root:Process 67738: Loaded models
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: i tyskland har specialutbildad militär satts in i helgen för att testa över en se personer vid köttfabriken tönnies i delstaten och han westfahlen där över ju under anställda hittills har visat sig bära på coronasmittan
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: slakterifabriken är en av europas största och utbrottet har satt igång en diskussion i tyskland om arbetsförhållandena i hela köttbranschen
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: en till som blir att i tyska som ska har fler och en som i på visat har är de anställda i arndt på fabriken men in i för talet så i till en han en många idag
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: inom däremot von visat satts in
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: i tyskland domineras köttmarknaden av just slaktkoncernen tönnies som har ett i procent av marknadsandelarna här
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: tysklands arbetsmarknadsminister hubertus heil lovar nu att utbrottet på fabriken kommer att få grundläggande konsekvenser för hela branschen det handlar den annat de skärpta kontroller och digitalt reglerad arbetstid
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: han säger till tevekanalen ard att är dramatiskt att så många smittas på fabriken
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: som det se under att så till men in det ett in sitt en
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: det i som i värde de med under en i branschen av om
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: nu i helgen ska som militärer däribland ett med medicinsk utbildning utföra tester för covid inom för att se om ännu fler av de anställda i smittade
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: jordbruksministern i delstaten har westfahlen där fabriken ligger
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: hoppas nu på federala lagar som stoppar kött som säljs långt under sitt värde
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: men kött kunden till för ett kirnse i berlin
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: tror inte på att förbjuda billigt kött
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: men däremot blir ju köttet automatisk dyrare om arbetsförhållandena förbättras
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: säger han
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: det växt för i över på talet i om som det en att för i satts i är och igång har
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: att få sitt testa satt få har en
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: katarina för ett i berlin
DEBUG:root:Excluded 0 empty transcripts
DEBUG:root:Writing transcription log to file "data-sv/aligned/transcript.log"...
INFO:root:Aligning
DEBUG:root:Loading script from data-sv/script/6_tyskland_kott_app_25446c3_a96.txt...
DEBUG:root:Loading transcription log from data-sv/aligned/transcript.log...
INFO:root:Fragment 0: character error rate (CER) too high
DEBUG:root:Fragment 1 aligned with CER: 0.00
DEBUG:root:- T: "slakterifabriken är en av europas största och utbrottet har satt igång en diskussion i tyskland om arbetsförhållandena i hela köttbranschen"
DEBUG:root:- O: nasmittan |slakterifabriken är en av europas största och utbrottet har satt igång en diskussion i tyskland om arbetsförhållandena i hela köttbranschen| i köttbut
DEBUG:root:Fragment 4 aligned with CER: 5.66
DEBUG:root:- T: "i tyskland domineras köttmarknaden av just slaktkoncernen tönnies som har ett i procent av marknadsandelarna här"
DEBUG:root:- O: h arbetar |i tyskland domineras köttmarknaden av just slaktkoncernen tönnies som har procent av marknadsandelarna här| det är et
DEBUG:root:Fragment 5 aligned with CER: 2.74
DEBUG:root:- T: "tysklands arbetsmarknadsminister hubertus heil lovar nu att utbrottet på fabriken kommer att få grundläggande konsekvenser för hela branschen det handlar den annat de skärpta kontroller och digitalt reglerad arbetstid"
DEBUG:root:- O: er länder |tysklands arbetsmarknadsminister hubertus heil lovar nu att utbrottet på fabriken kommer att få grundläggande konsekvenser för hela branschen det handlar bland annat om skärpta kontroller och digitalt reglerad arbetstid| han säger
DEBUG:root:Fragment 6 aligned with CER: 4.71
DEBUG:root:- T: "han säger till tevekanalen ard att är dramatiskt att så många smittas på fabriken"
DEBUG:root:- O: arbetstid |han säger till tevekanalen ard att det är dramatiskt att så många smittas på fabriken| nu i helg
DEBUG:root:Fragment 9 aligned with CER: 11.03
DEBUG:root:- T: "nu i helgen ska som militärer däribland ett med medicinsk utbildning utföra tester för covid inom för att se om ännu fler av de anställda i smittade"
DEBUG:root:- O: fabriken |nu i helgen ska militärer däribland med medicinsk utbildning utföra tester för covid för att se om ännu fler av de anställda är smittade| jordbruks
DEBUG:root:Fragment 10 aligned with CER: 11.27
DEBUG:root:- T: "jordbruksministern i delstaten har westfahlen där fabriken ligger"
DEBUG:root:- O: smittade |jordbruksministern i delstaten nordrhein westfahlen där fabriken ligger| hoppas nu
DEBUG:root:Fragment 11 aligned with CER: 0.00
DEBUG:root:- T: "hoppas nu på federala lagar som stoppar kött som säljs långt under sitt värde"
DEBUG:root:- O: en ligger |hoppas nu på federala lagar som stoppar kött som säljs långt under sitt värde| men kunde
INFO:root:Fragment 12: character error rate (CER) too high
DEBUG:root:Fragment 13 aligned with CER: 0.00
DEBUG:root:- T: "tror inte på att förbjuda billigt kött"
DEBUG:root:- O: i berlin |tror inte på att förbjuda billigt kött| men därem
DEBUG:root:Fragment 14 aligned with CER: 0.00
DEBUG:root:- T: "men däremot blir ju köttet automatisk dyrare om arbetsförhållandena förbättras"
DEBUG:root:- O: ligt kött |men däremot blir ju köttet automatisk dyrare om arbetsförhållandena förbättras| säger han
DEBUG:root:Fragment 15 aligned with CER: 0.00
DEBUG:root:- T: "säger han"
DEBUG:root:- O: örbättras |säger han| katarina
1 of 1 : 100.00% (elapsed: 00:00:01, speed: 0.91 it/s, ETA: 00:00:00)
INFO:root:Aligned 10 fragments
INFO:root:Dropped 9 fragments 90.00%:
INFO:root: - character error rate (CER) too high: 2
@BoneGoat Great work! Would you like to put up a PR for this?
I have taken some shortcuts to get it working which I would like to clean up. For instance, the scorer is built using modified code from DeepSpeech. As DeepSpeech is a dependency of DSAlign I would much rather use it directly but for now I had to change some stuff get it working. I will try to clean it up and submit a PR.
Solved by #32
Hi, first of all thank You for this awsome tool. @tilmankamp have you considered updating DSAlign to DeepSpeech 0.7.3?