#2 音声認識、LLM、音声合成で最低限の会話を実装 - Githubissues

daikUGene / Ai

0 stars 0 forks source link

#2 音声認識、LLM、音声合成で最低限の会話を実装 #7

Closed daikUGene closed 1 month ago

daikUGene commented 1 month ago

詳細

音声認識、LLM、音声合成により最低限の会話を実装
会話の流れは以下の通り
1. Ai側が音声で語りかけてくる
2. 音声認識を開始しユーザの発話を待機する
3. ユーザの発話があればLLMで応答発話を生成して音声合成で返す

使用したライブラリ・API

Raspberry Pi上で高速に実行させるため、以下のライブラリ・APIを使用した。
- 音声認識：Google Speech Recognition
- LLM：Gemini 1.5 Flash
- 音声合成：gTTS
Gemini 1.5 FlashのAPIキーは環境変数を読み込む仕様にしているので、事前に環境変数GOOGLE_API_KEYにAPIキーを設定する必要あり

所感

思ったより早く応答が返ってきて良い感じ

改善点

さらなる高速化 LLMのストリーミング化など
プロンプトで性格を与えるべき
音声認識やLLMのエラー処理が雑