hikariming / chat-dataset-baseline

人工精调的中文对话数据集和一段chatglm的微调代码
1.13k stars 95 forks source link

请问,如何评测微调后的模型效果? #88

Open luyangxxt opened 4 months ago

luyangxxt commented 4 months ago

除了输入“你是谁?”,或者数据集中特有一些问题,有没有别的量化方案可以评估训练完的模型性能提升或变差? 这边也是训练完了, 想知道结果怎么样