ggerganov / whisper.cpp

Port of OpenAI's Whisper model in C/C++
MIT License
35.38k stars 3.61k forks source link

Large-v3-turbo model not translating japanese into English #2476

Open zoltan-dulac opened 2 weeks ago

zoltan-dulac commented 2 weeks ago

I just tried the new large-v3-turbo model on translating Japanese anime video into English. Instead of English, it gave the subtitles in Japanese, with each subtitle taking a block of 30 seconds in time. It did, however, work as expected with large-v2 and large-v3

Here is the command I used:

main  -tr -l ja --model large-v3-turbo --output-srt audio.wav

Here is a sample of the output (note it's in Japanese, not English, even though I use the -tr flag.

[00:00:00.000 --> 00:00:30.000] ... [00:00:30.000 --> 00:01:00.000] 「おしもし。田中課長ですが。おしおし。最近起こっている黒い幽霊への正体について話したいことがあるんです。私は鷲塚科学研究所の赤坂というものです。黒い幽霊の正体?赤坂さんですね。詳しく話してください。私は黒い幽霊の正体を知っています。最近のいたずらは、みんな私の実験のせいです。黒い幽霊は私の発明者です。 [00:01:00.000 --> 00:01:30.000] 。 [00:01:30.000 --> 00:02:00.000] 「私の体の中のテープレコーダー」に録音してありますから、一つ再生してみましょう。」「私は黒い幽霊の正体を知っています。最近のいたずらはみんな私の実験のせいです。黒い幽霊は私を発明した。」「今のは普通のスピードで再生した音です。しかし、もっとゆっくり再生してみるとはっきり分かります。」「赤坂め、自分のしていることが恐ろしくなったな。」「どうしますか、赤坂」 [00:02:00.000 --> 00:02:30.000] 読壮詰めることができるという時になって赤坂に裏切られたんじゃ元も子もないこの発明さえ手に入れば鬼に金棒だ黒い幽霊の恐怖が面白い筋書きだぞあのキーキー言う音は誰かが普通の人の何倍もの速さで喋ってるんですどうしたんなに早く喋れるかわかりませんかあいつたちの話を聞いていると何か恐ろしい力を手に入れたようだこれは大変なことになるかもしれんぞ [00:02:30.000 --> 00:03:00.000] 「まあすげえなあれが次回1億円のダイヤの王冠だ。私もひとつでいいからんなダイヤが欲しいわ。あ、王冠がない。大変だ。警察に連絡しよう。何だあれが。どうしてって。 [00:03:00.000 --> 00:03:30.000] 「それでは、お宅の会社から納入していただいたセメントの代金、2億円お渡しします」頂戴します佐久様が消えた!こ、こいつめ手品を使ってごまかしたなぁ!何だと!?ちゃんと金を渡したのにお前のほうこつ買えたの!

lithium0003 commented 2 weeks ago

I tested turbo model, translation to english is not training, only transcription.

vashat commented 1 week ago

I have the same problem using ./stream and -tr parameter:

./stream -m ./models/ggml-large-v3-turbo.bin -t 8 --step 1000 --length 6000 --language sv -tr

The resulting text is in Swedish and not English.

lithium0003 commented 1 week ago

https://github.com/openai/whisper/discussions/2363

Whisper turbo was fine-tuned for two more epochs over the same amount of multilingual transcription data used for training large-v3, i.e. excluding translation data, on which we don’t expect turbo to perform well.