dz0o0 / Taltner

アイデアソンで作った、会話サポートWebアプリ
2 stars 0 forks source link

STT(Whisper)で、クライアントからの音声データを解析 #27

Closed KorRyu3 closed 5 months ago

KorRyu3 commented 5 months ago

概要

Whisper-large-v3を使用し、クライアントから送られてくるbase64の音声データを解析し、文章として出力します。

変更内容

動作確認方法

パッケージを追加しているため、poetry installをしてからプログラムを動かしてください。

ローカルで動かす際は、必ずffmpegをインストールしてから推論を始めてください。 でないと、STTでの推論ができません。

また、動作確認をする際は、stt_model_download.pyを実行してください。どのディレクトリにいても動くはずです。

関連Issue, PR

その他