misyaguziya / VRCT

VRCT(VRChat Chatbox Translator & Transcription)
https://misyaguziya.booth.pm/items/
MIT License
52 stars 5 forks source link

Feature Request: Use direct translation feature of whisper (機能リクエスト: whisper の直接翻訳機能を使用する) #17

Open kooshi opened 1 month ago

kooshi commented 1 month ago

The whisper models can transcribe and translate at the same time, if configured correctly.

The models were trained on either English-only data or multilingual data. The English-only models were trained on the task of speech recognition. The multilingual models were trained on both speech recognition and speech translation. For speech recognition, the model predicts transcriptions in the same language as the audio. For speech translation, the model predicts transcriptions to a different language to the audio. source

If we add this feature to VRCT, combined with the feature of running these models on the GPU, it could result in very fast, high quality translations.

Google Translate: ウィスパー モデルは、正しく構成されていれば、文字起こしと翻訳を同時に行うことができます。

モデルは、英語のみのデータまたは多言語データでトレーニングされました。英語のみのモデルは、音声認識のタスクでトレーニングされました。多言語モデルは、音声認識と音声翻訳の両方でトレーニングされました。音声認識の場合、モデルはオーディオと同じ言語での文字起こしを予測します。音声翻訳の場合、モデルはオーディオとは異なる言語への文字起こしを予測します。 ソース

この機能を VRCT に追加し、これらのモデルを GPU で実行する機能と組み合わせると、非常に高速で高品質の翻訳が可能になります。