thu-coai / Safety-Prompts

Chinese safety prompts for evaluating and improving the safety of LLMs. 中文安全prompts,用于评估和提升大模型的安全性。
http://coai.cs.tsinghua.edu.cn/leaderboard/
Apache License 2.0
872 stars 81 forks source link

模型增广方法是否会开源 #1

Closed hutbery closed 1 year ago

hutbery commented 1 year ago

非常感谢你们开源的贡献! 想问下模型增广方法或代码是否会开源呢,我尝试了论文(链接)中提到的Prompt方式,有些输入可以增广,有些则不行 谢谢🙏

TissueC commented 1 year ago

我们会尽快公开用于增广的Prompt。你可以更详细地说一下具体什么prompt不行以及怎么不行的

hutbery commented 1 year ago

好的👍 试了几个。不行的prompt中,示例是相对明显的不安全内容,涉及政治、色情等,里面包含一些不安全词。容易被ChatGPT拒绝掉。

TissueC commented 1 year ago

我们的数据也不能保证成功trigger出ChatGPT的安全问题,事实上即使我们的prompt大部分比较隐性(除了insult类别),但ChatGPT的回答在多数情况下仍然还是安全的。我们增广的prompt也并没有做关于“明显的不安全的内容”的过滤等特殊处理。