issues
search
daikUGene
/
Ai
0
stars
0
forks
source link
#2 音声認識、LLM、音声合成で最低限の会話を実装
#7
Closed
daikUGene
closed
1 month ago
daikUGene
commented
1 month ago
詳細
音声認識、LLM、音声合成により最低限の会話を実装
会話の流れは以下の通り
Ai側が音声で語りかけてくる
音声認識を開始しユーザの発話を待機する
ユーザの発話があればLLMで応答発話を生成して音声合成で返す
使用したライブラリ・API
Raspberry Pi上で高速に実行させるため、以下のライブラリ・APIを使用した。
音声認識:
Google Speech Recognition
LLM:
Gemini 1.5 Flash
音声合成:
gTTS
Gemini 1.5 FlashのAPIキーは環境変数を読み込む仕様にしているので、事前に環境変数
GOOGLE_API_KEY
にAPIキーを設定する必要あり
所感
思ったより早く応答が返ってきて良い感じ
改善点
さらなる高速化 LLMのストリーミング化など
プロンプトで性格を与えるべき
音声認識やLLMのエラー処理が雑
詳細
使用したライブラリ・API
GOOGLE_API_KEY
にAPIキーを設定する必要あり所感
改善点