这个工程是用来制作对齐人类价值观的语料对吗

kindaQ commented 1 year ago

作者您好，看了这个工程的代码和论文，感觉思路很新颖，想和您交流一下这个工程只是用来制作语料对吗？然后用对齐的语料再去SFT1个model 通过多次调用openai的接口来对1个response打分，再对response进行revise，最终对齐人类的social value 这里省去了自己整理reward语料、训练reward model和PPO的过程，可以节省大量的工作但是，我理解这里对齐的social value是从GPT得到的，而GPT的social value是从其RLHF过程学到的所以我有2个问题： 1.如果没有GPT3+，只用GPT2以下的版本，还能得到对齐的语料吗？ 2.如果我们有自己的reward语料，想学到超出GPT的social value，能实现吗？

agi-templar commented 1 year ago

您好。我们的方案可以理解为数据工程 + 算法改进。

我们的初衷是探索高质量数据配合简便易行的算法在对齐问题上所能取得的上限。这个思路和同期发表的一些工作有共鸣：比如 Meta 的 LIMA，也是发现少量的精细标注的数据就能让模型“对齐”。换句话说，我们认为在对齐的这个问题上，数据因素可能是占主导的；但是之前的工作大多数是探索各种 RLHF 算法上的变体。

相比于其它在数据因素上探索的工作，我们尝试了在人为规则制定下多智能体自我博弈去产生对齐数据。我们对于模型本身的对齐其实没有硬性要求，但是我们需要最终收集到的数据应该是包含 “未对齐” 到 “对齐” 的完整光谱的。也就是说我们既要有负面的例子，也要有正面的例子。所以在这个意义上我们包含了 text-davinci-002 (没有经过对齐训练) 以及 text-davinci-003, chatgpt （经过对齐训练）的数据。

对于您的问题：

如果只用 GPT-2 及以下，根据 Figure 3，我们发现这些未对齐的模型在 alignment 和 engagement 的上限上都不如对齐的模型，所以如果只用未对齐的模型，会在 “对齐” 数据上有一些缺失。结合我们之前说的，需要有一个完整的光谱，我们认为这样是不合适的。同样的，如果只有对齐的数据，那么低分段的 “不对齐” 数据也会有缺失，这会影响 realignment 和 self-critique 等种类数据的数量，因而也是不推荐。
我觉得如果您的 reward 语料包含了 “对齐” 以及 “不对齐” 的完整光谱，并且之间拥有细粒度的逐步提升的特征，那么我们认为您将数据整理成我们 sandbox 要求的格式，再配合 stable alignment 算法，效果应该不会差。我们的沙盒模拟除了自动化生成对齐数据，还有一个亮点就是自带细粒度的逐步提升（因为 back-scatter 同侪反馈这个机制）。您可以尝试一下效果，我们愿意回答进一步的问题。

最后，感谢您的关注！

kindaQ commented 1 year ago

非常感谢您的认真回复，我会持续关注这个优秀的项目，也会尽自己的能力帮助它更完善

agi-templar / Stable-Alignment

这个工程是用来制作对齐人类价值观的语料对吗 #1