Open yuiseki opened 1 year ago
Raspberry Pi 4 Model B 8GBで、llama.cpp を使い llama-2-7b.Q4_K_M.gguf
を動かしてみました。
結論から言うと メチャクチャ遅い です。 Overpass API Queryを生成するプロンプトの推論に6分間も掛かります。 同じプロンプトをノートPCで試してみましたが、GPUの支援無しだと、やはり1分~2分掛かってしまいます。
ちょっと見込みが甘かったと思います。。
llama.cppのOpenMPI実装も試してみましたが、
という状態です。
GPU付きのマシンでリクエストを捌くような仕組みを作れないと、結局llama.cppをWebアプリケーションの基盤にすることは難しそうだ、という感触です。
text-davinci-002
モデルを利用しているllama.cpp
によってtext-davinci-002
モデルよりも遥かに賢いモデルを、Raspberry Pi 4 Model Bですら、動かすことができるllama.cpp
は、HTTP サーバーとしての機能も持つllama.cpp
が動作するRaspberry Pi 4 Model Bは、Smart Maps Assistantの各メンバーの自宅で動作する想定である