Experimental eval result reporting

Eval	Model	Accuracy	MSE	MAE
LLMGradingHead	togethercomputer/llama-2-70b-chat	0.6333333333333333	0.36666666666666664	0.36666666666666664
LLMClassificationHead	gpt-3.5-turbo	0.2	4.066666666666666	1.6
LLMGradingHead	gpt-3.5-turbo	0.3	2.0	1.0
LLMClassificationHeadCOT	gpt-3.5-turbo	0.23333333333333334	3.933333333333333	1.6
LLMGradingHeadCOT	gpt-3.5-turbo	0.7666666666666667	0.23333333333333334	0.23333333333333334

yujonglee / eval