yujonglee / eval

Evaluate your LLM apps, RAG pipeline, any generated text, and more!
MIT License
0 stars 0 forks source link

Experimental eval result reporting #91

Closed yujonglee closed 1 year ago

fastrepl[bot] commented 1 year ago
Eval Model Accuracy MSE MAE
LLMGradingHead togethercomputer/llama-2-70b-chat 0.6333333333333333 0.36666666666666664 0.36666666666666664
LLMClassificationHead gpt-3.5-turbo 0.2 4.066666666666666 1.6
LLMGradingHead gpt-3.5-turbo 0.3 2.0 1.0
LLMClassificationHeadCOT gpt-3.5-turbo 0.23333333333333334 3.933333333333333 1.6
LLMGradingHeadCOT gpt-3.5-turbo 0.7666666666666667 0.23333333333333334 0.23333333333333334

https://app.fastrepl.com/run/b26f112caa9b44f38119f0d8f8974672