Closed bojone closed 3 years ago
此外,我发现如果固定预训练模型权重不变,只优化prompt,那么对于特定的预训练模型来说,性能会存在上限,即全量数据训练的情况下比不上直接finetune整个模型(哪怕想过拟合都不行)。按照我的想法,这个现象应该是很普遍的,但我看贵作在superglue的实验结果,多数任务下p-tuning还优于直接finetune,这点应该怎么理解。
你好,有幸读到贵作《GPT Understands, Too》,确实很不错。在阅读过程中,主要有两个疑问,烦请指点。
1、prompt直接通过embedding优化生成,跟原论文中使用LSTM生成,效果差距有多大呢?论文似乎并没有对比两者的差距。
2、关于superglue的各个任务的template,能否简单罗列一下?我只看到LAMA那里写了(3, sub, 3, obj, 3)和(3, sub, 3, obj),其他任务未见。
此外,我发现如果固定预训练模型权重不变,只优化prompt,那么对于特定的预训练模型来说,性能会存在上限,即全量数据训练的情况下比不上直接finetune整个模型(哪怕想过拟合都不行)。按照我的想法,这个现象应该是很普遍的,但我看贵作在superglue的实验结果,多数任务下p-tuning还优于直接finetune,这点应该怎么理解。
在SuperGlue部分的实验设定中,我们已经明确了需要同时fine-tune预训练模型,可以参考#4。 In the section for the SuperGlue experiment setting, we clarify that we need to fine-tune pre-trained models while using P-tuning. For more details please refer to #4.
此外,我发现如果固定预训练模型权重不变,只优化prompt,那么对于特定的预训练模型来说,性能会存在上限,即全量数据训练的情况下比不上直接finetune整个模型(哪怕想过拟合都不行)。按照我的想法,这个现象应该是很普遍的,但我看贵作在superglue的实验结果,多数任务下p-tuning还优于直接finetune,这点应该怎么理解。
在SuperGlue部分的实验设定中,我们已经明确了需要同时fine-tune预训练模型,可以参考#4。 In the section for the SuperGlue experiment setting, we clarify that we need to fine-tune pre-trained models while using P-tuning. For more details please refer to #4.
谢谢,是我疏忽了。我以为SuperGlue和LAMA的设置是一样的,而LAMA的Table 2显然是固定了语言模型的。
4
你好,那最后再确认一下,在superglue任务中,是先固定预训练模型找出prompt然后再finetune整个模型,还是找prompt和finetune模型同时做的呢?
4
你好,那最后再确认一下,在superglue任务中,是先固定预训练模型找出prompt然后再finetune整个模型,还是找prompt和finetune模型同时做的呢?
在SuperGLUE任务中,找prompt和fine-tune模型是同时进行的。 In the SuperGLUE experiments, searching prompts and fine-tuning are conducted simultaneously.
想了解一下,现在有chatgpt 3.5, 4这种比较强的工具了是不是可以不需要p-tuning这种技巧了?
你好,有幸读到贵作《GPT Understands, Too》,确实很不错。在阅读过程中,主要有两个疑问,烦请指点。
1、prompt直接通过embedding优化生成,跟原论文中使用LSTM生成,效果差距有多大呢?论文似乎并没有对比两者的差距。
2、关于superglue的各个任务的template,能否简单罗列一下?我只看到LAMA那里写了(3, sub, 3, obj, 3)和(3, sub, 3, obj),其他任务未见。