AlibabaResearch / DAMO-ConvAI

DAMO-ConvAI: The official repository which contains the codebase for Alibaba DAMO Conversational AI.
MIT License
1.1k stars 178 forks source link

Deep thinking说白了就是重复唠叨,但还谈不上学习 #51

Closed shuiyueche closed 1 year ago

shuiyueche commented 1 year ago
  1. 在MR数据集上选用opt-125M,把挑选的两个示例重复5次再输入,结果第一个iteration就有67%的准确率,第二个就是达到73%
  2. 在同样的数据集上选用opt-125M,把示例的正负标签对换,结果还是没能学到新的标签的结果。。。
huybery commented 1 year ago
  1. 重复实例存在提升我们也有发现,其实这个现象可以作为 ICL 在执行隐式梯度下降的一个表现。其实传统训练也是对 train sample 不断重复,重复示例和 deep-thinking 的区别在于是一步优化还是多步累积优化;二者都有提升说明仍然有很有趣的点值得探索,欢迎提供更多有意思的现象 :)
  2. ICL 通常是要在 zero-shot 能力的基础上补充更多有意义的数据,从而提升效果。翻转标签任务本身就很有挑战,相当于 ICL 要和模型内部的 zero-shot 知识进行抗衡,有点类似于反事实设置,这种任务你想用 sft 学习也比较难;
  3. 对于是否产生了「学习」,我们主要的判断依据还是引入 deep-thinking 能否提升 ICL 效果;
shuiyueche commented 1 year ago

如果生成式任务也有这样的现象,那就有意思了,尤其对小模型而言。而且直接魔改key value pair也是潜在的加长上下文长度的路子。

huybery commented 1 year ago

是的!我们正在继续探索,欢迎一起建设 👏🏻