Deep thinking说白了就是重复唠叨，但还谈不上学习

AlibabaResearch / DAMO-ConvAI

DAMO-ConvAI: The official repository which contains the codebase for Alibaba DAMO Conversational AI.

MIT License

1.1k stars 178 forks source link

重复实例存在提升我们也有发现，其实这个现象可以作为 ICL 在执行隐式梯度下降的一个表现。其实传统训练也是对 train sample 不断重复，重复示例和 deep-thinking 的区别在于是一步优化还是多步累积优化；二者都有提升说明仍然有很有趣的点值得探索，欢迎提供更多有意思的现象 :)
ICL 通常是要在 zero-shot 能力的基础上补充更多有意义的数据，从而提升效果。翻转标签任务本身就很有挑战，相当于 ICL 要和模型内部的 zero-shot 知识进行抗衡，有点类似于反事实设置，这种任务你想用 sft 学习也比较难；
对于是否产生了「学习」，我们主要的判断依据还是引入 deep-thinking 能否提升 ICL 效果；

AlibabaResearch / DAMO-ConvAI