SYSTRAN / faster-whisper

Faster Whisper transcription with CTranslate2
MIT License
12.65k stars 1.06k forks source link

Greater error when converted via ctranslate2 #1168

Open hforghani opened 2 days ago

hforghani commented 2 days ago

I fine-tuned a Whisper large-v3 model via speechbrain framework. I want to convert it to faster-whisper model and run inference on it via faster-whisper==1.0.3. For this sake I first saved the model and weights:

from speechbrain.inference.ASR import WhisperASR
from transformers import WhisperProcessor

model  = WhisperASR.from_hparams(
            source="path/to/speechbrain/model",
            hparams_file="hyperparams.yaml",
            savedir='tmp_whisper',
            run_opts={"device": "cuda"}
            )
model.mods.whisper.model.save_pretrained("tmp_whisper_finetuned")
processor = WhisperProcessor.from_pretrained("openai/whisper-large-v3")
processor.save_pretrained("tmp_whisper_finetuned")

Then I converted the model via ctranslate2==4.5.0 to faster-whisper format following this instruction in fp16 quantization:

python -m ctranslate2.converters.transformers --model tmp_whisper_finetuned  --output_dir tmp_whisper_ft_ctranslate2   --copy_files tokenizer_config.json preprocessor_config.json --quantization float16

After that I ran inference on it:

from faster_whisper import WhisperModel

model = WhisperModel("tmp_whisper_ft_ctranslate2", device='cuda')
segments, info = model.transcribe(voice_file, language="fa")

I ran this inference on a dataset containing 400 samples and averaged WER and CER. But I received greater errors than speechbrain:

Model Platform quantization Time (s) WER CER Max Memory (MB)
My fine-tuned model Speechbrain - 890 0.1495 0.0309 8182
My fine-tuned model Faster-whisper fp16 491 0.2436 0.1022 ~5300
Whisper-large-v3 Openai-whisper - 1185 0.2570 0.0705 9948
Whisper-large-v3 Faster-whisper fp16 536 0.2491 0.0647 ~4300

Why the converted model in faster-whisper format obtains far greater error rates than speechbrain? You may think it is due to quantization fp16 but the base model Whisper-large-v3 with the same quantization on faster-whisper gains almost equal error rates in comparison with openai-whisper.

hforghani commented 2 days ago

I add some sample transcriptions. My fine-tuned model on faster-whisper has considerable hallucination. The bold text shows hallucination.

Reference Sentence Speechbrain Output Faster-whisper Output
خالقی که با جلوه ی سراسر نورانی خود عوالم غیب و شهادت و سر و علن را به نعمت وجود اراسته و به برکت برگزیدگانش به ما رسانده که الله نور السموات و الارض و با ظهور جمیلش پرده از جمالش برافکنده که هو الاول و الاخر و الظاهر و الباطن و به کتب مقدس اسمانی اش که از حضرت غیب بر انبیایش از صفی الله تا خلیل الله و از خلیل الله تا حبیب الله صلوات الله و سلامه علیهم و سلم نازل فرموده راه وصول به کمالات و فنای در کمال مطلق را تعلیم فرموده و سلوک الی الله را گوشزد کرده چون کریمه ی و من یخرج من بیته مهاجرا الی الله و طریق برخورد با مومنین و دوستان خود و ملحدین و مستکبرین و دشمنان خویش را اموخته محمد رسول الله و الذین معه اشداء علی الکفار رحماء بینهم و هزاران شکر که ما را از امت خاتم النبین محمد مصطفی صلی الله علیه و اله و سلم قرار داد افضل و اشرف موجودات و از پیروان قران مجید اعظم و اشرف کتب مقدسه و صورت کتیبه ی حضرت غیب مستجمع جمیع کمالات به صورت وحدت جمیعه و ضمانت حفظ و صیانت ان را از دستبرد شیاطین انس و جن فرموده انا نحن نزلنا الذکر و انا له لحافظون قرانی که نه یک حرف بر ان افزوده شده و نه یک حرف کاسته خالقی که با جلوه سراسر نورانی خود عوالم غیب و شهادت و سر و علن را به نعمت وجود اراسته و به برکت برگزیدگانش به ما رسانده که الله و نور و سماوات والارض و با ظهور جمیلش پرده از جمالش برافکنده که هو والاول والاخر و ظاهر و باطن و به کتب مقدس اسمانی اش که از حضرت قیر وی بر انبیاش از صفی الله تا خلیل الله و از خلیل الله تا حبیب الله ص نازل فرموده راه وصول به کمالات و فنای در کمال مطلق را تعلیم فرموده و سلوک الی الله را گوشزد کرده چون کریمه و منیخروج من بیته ای مهاجرند الی الله و طریق برخورد برد با مومنین و دوستان خود و ملحدین و مستکبرین و دشمنان خود را اموخته محمد رسول الله و لزینم اهو اشدع علی الکفار رحم اع بین هم و هزاران شکر که ما را از امت خاتم النبیین محمد مصطفی ص قرار داد افضل و اشرف موجودات و از پیروان قدرت قران مجید اعظم و اشرف کتب مقدسه و صورت کتیبه حضرت غیب مستجمع جمیع کمالات به صورت وحدت جمیعه و ضمانت حفظ و صیانت ان را از دستبرد شیاطین انس و جن فرموده انا نه نو نه ظل نه ذکر و انا لهو لحافظون قرانی که نه یک حرف بر ان افزوده شده و نه یک حرف رفع کار سته قی که با جلوه سراسرنورانی خود عوالم غیب و شهادت و صر و علن را به نعمت وجود اراسته و به برکت برگزیدگانش به ما رسانده که الله و نور و سماوات والعرض و با ظهور جمیله اش پرده از جمالش برفکنده که هو الاول والاخر و ظاهر ولباطن و به کتاب مقدس اسمانی اش یب سعیب ان وح ورزن رایبیبیبیبی برک ویبیبیبیبیبی بر ویبیبیبیبی بر ویبیبی بیبی بی بیبی بیبی بی بی بی بیبی بیبی بی بی بی بیبی بی بی بی بی بیبی بی بی بی بیبی بی بی بی بی بی بیبی بی بی بی بی بی بی بی بی بی بی بی بی بی بی بی بی بی بی بی بی بی بی بی بی بی بی بی بی بی بی بی بی بی بی بی بی بی بی بی بی بی برد با مومنین و دوستان خود و ملحدین و مستکبرین و دشمنان خود را اموخته محمد رسول الله و لزی نعمه اهو الشداع علی الکفار رهماع بین هم و هزاران شوکش که ما را از امت خاتم النبیین محمد مصطفی ص قرار داد افضل و اشرف موجودات و پیروان قدرت وی و زرح مق و که پسپت و ازنه بر و س را و یک وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی وی ن دی وی وی وی وی وی وی وی وی وی وی وی وی نی در کار سته
عبدالله نصیری در گفت ؤگو با خبرگزاری دانشجویان ایران ایسنا با بیان اینکه این تاخیر جزیی است افزود تمام قراردادهای عمره ی سال اینده با وزیر حج سابق عربستان منعقد و جداول پروازی نیز مشخص شده بود که با وجود تغییرات اخیر باید تمام قراردادها از سوی کمیته ی ملی عمره تایید شود عبدالله نصیری در گفتگو با خبرگزاری دانشجویان ایران ایسنا با بیان این که این تاخیر جزیی است افزود تمام قراردادهای عمری سال اینده با وزیر حج سابق عربستان منعقد و جداول پروازی نیز مشخص شده بود که با وجود تغییرات اخیر باید تمام قراردادها از سوی کمیته ملی ملی عمره تایید شود نصری در گفت وگو با خبرگزاری دانشجویان ایران ایسنا با بیان این که این تاخیر جزیی است افزود تمام قراردادهای عمری سال اینده با وزیر حج سابق عربستان منعقد و جداول پروازی نیز مشخص شده بود که با وجود تغییرات اخیر باید تمام قراردادها تایر و زن ر نلی و مردال دوز لیترانر و کندگر این م ع به مین م ولایبنتی کلی وی ویر و ی ام روی وی و پی وی سپی وی ویه هی و طی وی وی ویدی ویدیت شی وی وی وی وی وی وی کند است متن
MahmoudAshraf97 commented 2 days ago

In CT2 conversion, remove the quantization and try again