模型增广方法是否会开源

thu-coai / Safety-Prompts

Chinese safety prompts for evaluating and improving the safety of LLMs. 中文安全prompts，用于评估和提升大模型的安全性。

http://coai.cs.tsinghua.edu.cn/leaderboard/

Apache License 2.0

872 stars 81 forks source link

Closed hutbery closed 1 year ago

hutbery commented 1 year ago

非常感谢你们开源的贡献！想问下模型增广方法或代码是否会开源呢，我尝试了论文（链接）中提到的Prompt方式，有些输入可以增广，有些则不行谢谢🙏

TissueC commented 1 year ago

我们会尽快公开用于增广的Prompt。你可以更详细地说一下具体什么prompt不行以及怎么不行的

hutbery commented 1 year ago

好的👍 试了几个。不行的prompt中，示例是相对明显的不安全内容，涉及政治、色情等，里面包含一些不安全词。容易被ChatGPT拒绝掉。

TissueC commented 1 year ago

我们的数据也不能保证成功trigger出ChatGPT的安全问题，事实上即使我们的prompt大部分比较隐性（除了insult类别），但ChatGPT的回答在多数情况下仍然还是安全的。我们增广的prompt也并没有做关于“明显的不安全的内容”的过滤等特殊处理。