Closed potong closed 1 year ago
非常感谢提供宝贵的中文安全prompts,想请教下对生成的结果如何自动评估呢?有推荐的评估指标不,谢啦
目前我们使用的评估指标是最简单的“安全/不安全”两个维度下的安全率,在评测的时候,可以使用一些prompt来增强模型对于“安全”定义的理解,具体细节可参考我们的论文。
弱弱地问下,论文我也看了下,数据集我也下了. 自动化评估是指的是用代码的方式去判断模型的response进行打分吗?有用到什么评估框架,还是说安全/不安全是人为评估的.
非常感谢提供宝贵的中文安全prompts,想请教下对生成的结果如何自动评估呢?有推荐的评估指标不,谢啦