issueURL

この PR で対応する範囲 / この PR で対応しない範囲

https://github.com/nekochans/ai-cat-api/issues/113 に記載されている通り、LLMでLLMを評価する為のテストコードを追加。

LLMをLLMで評価するテストコードを追加しました。

評価用のプロンプトを定義してこちらで用意した想定質問と模範回答を用意して、それをscore化する形でアウトプットするようにしています。

100点満点で80点未満はテストを失敗するようにしています。

ただしこれをCIで回すとAPIの料金が高くなってしまうので普段はテストをスキップしています。

AIアシスタントの性能低下に気がつけるように今後は普段のCIとは別に定期実行等を検討するかもしれません。

ちなみに現状の結果ですが、ほぼ合格ラインですがたまに80点を下回る項目が出てしまう物があるという感じです。

評価用プロンプトに記載する評価項目について何か追加すべき物があれば知りたいです。

LangSmith等を利用すると想定質問等のデータセットの管理や消費トークン数、利用料金等も出力可能ですがLangChainを使った実装ではないので最小構成を時前実装する形にしました。