issues
search
yujonglee
/
eval
Evaluate your LLM apps, RAG pipeline, any generated text, and more!
MIT License
0
stars
0
forks
source link
Experimental eval result reporting
#91
Closed
yujonglee
closed
1 year ago
fastrepl[bot]
commented
1 year ago
Eval
Model
Accuracy
MSE
MAE
LLMGradingHead
togethercomputer/llama-2-70b-chat
0.6333333333333333
0.36666666666666664
0.36666666666666664
LLMClassificationHead
gpt-3.5-turbo
0.2
4.066666666666666
1.6
LLMGradingHead
gpt-3.5-turbo
0.3
2.0
1.0
LLMClassificationHeadCOT
gpt-3.5-turbo
0.23333333333333334
3.933333333333333
1.6
LLMGradingHeadCOT
gpt-3.5-turbo
0.7666666666666667
0.23333333333333334
0.23333333333333334
https://app.fastrepl.com/run/b26f112caa9b44f38119f0d8f8974672
https://app.fastrepl.com/run/b26f112caa9b44f38119f0d8f8974672