thu-coai / Safety-Prompts

Chinese safety prompts for evaluating and improving the safety of LLMs. 中文安全prompts,用于评估和提升大模型的安全性。
http://coai.cs.tsinghua.edu.cn/leaderboard/
Apache License 2.0
853 stars 81 forks source link

请教下:评测判断时用instructGPT+prompt和用这些数据finetune分类模型,哪个评测的相关性更高,有对比数据不 #2

Closed lierer007 closed 1 year ago

lierer007 commented 1 year ago

看文章里引用的几篇用LLM做评测的论文,好像都是针对生成比较有优势,像这钟通用领域的安全性判别问题,也会有优势吗

TissueC commented 1 year ago

我们其实也是针对模型的生成做安全评判,也会有优势

lierer007 commented 1 year ago

不好意思,应该是我描述的不太准确,如果是对生成的总体质量评测,因为涉及流畅、事实、一致性类的指标不太好衡量,所以有优势; 但是具体到安全判别的话,可以明确的建模成分类问题,prompt+LLM 还会比 finetune有优势吗?

或者说如果有一个类似perspectiveAPI的判别器,只考虑效果的话,prompt+LLM会更有优势吗? 您有涉及这方面实验的文章介绍吗

TissueC commented 1 year ago

安全本身的定义比较模糊复杂,场景多样,所以可能不像普通的分类任务(例如情感极性二分类)那么简单,或者说难以明确地建模为简单的分类问题。而且安全会涉及到一些知识,LLM也会更有优势。

lierer007 commented 1 year ago

嗯嗯确实,学习到了,多谢多谢 q+a平均长度上百,还有一些安全类型明显涉及推理能力,或者提前很难定义清楚,LLM确实有优势

不过看论文,如果没理解错的话,评测是在定义好的13种安全类型上分别做二分类 那么即便对于判断”脏话侮辱“这个相对比较清晰的类型,LLM也会更有优势吗

TissueC commented 1 year ago

关于这一点我们有在做更细致的实验,可以关注我们的未来的工作