关于论文的一些疑惑

bojone commented 3 years ago

你好，有幸读到贵作《GPT Understands, Too》，确实很不错。在阅读过程中，主要有两个疑问，烦请指点。

1、prompt直接通过embedding优化生成，跟原论文中使用LSTM生成，效果差距有多大呢？论文似乎并没有对比两者的差距。

2、关于superglue的各个任务的template，能否简单罗列一下？我只看到LAMA那里写了(3, sub, 3, obj, 3)和(3, sub, 3, obj)，其他任务未见。

bojone commented 3 years ago

此外，我发现如果固定预训练模型权重不变，只优化prompt，那么对于特定的预训练模型来说，性能会存在上限，即全量数据训练的情况下比不上直接finetune整个模型（哪怕想过拟合都不行）。按照我的想法，这个现象应该是很普遍的，但我看贵作在superglue的实验结果，多数任务下p-tuning还优于直接finetune，这点应该怎么理解。

Xiao9905 commented 3 years ago

你好，有幸读到贵作《GPT Understands, Too》，确实很不错。在阅读过程中，主要有两个疑问，烦请指点。

1、prompt直接通过embedding优化生成，跟原论文中使用LSTM生成，效果差距有多大呢？论文似乎并没有对比两者的差距。

2、关于superglue的各个任务的template，能否简单罗列一下？我只看到LAMA那里写了(3, sub, 3, obj, 3)和(3, sub, 3, obj)，其他任务未见。

这部分我们会补充实验结果，比较明确的结论是对于小模型主要是训练速度更慢，最终效果接近；对于大模型直接embedding会比LSTM差。There will be additional experiment results on the comparison of direct embedding and LSTM encoder. A general conclusion is that for small pre-trained models, direct embedding converges slower but has a similar performance to LSTM, while in large models direct embedding shows a poorer performance.
我们会之后补充在附录部分。We will present it in the appendix later.

Xiao9905 commented 3 years ago

此外，我发现如果固定预训练模型权重不变，只优化prompt，那么对于特定的预训练模型来说，性能会存在上限，即全量数据训练的情况下比不上直接finetune整个模型（哪怕想过拟合都不行）。按照我的想法，这个现象应该是很普遍的，但我看贵作在superglue的实验结果，多数任务下p-tuning还优于直接finetune，这点应该怎么理解。

在SuperGlue部分的实验设定中，我们已经明确了需要同时fine-tune预训练模型，可以参考#4。 In the section for the SuperGlue experiment setting, we clarify that we need to fine-tune pre-trained models while using P-tuning. For more details please refer to #4.

bojone commented 3 years ago

此外，我发现如果固定预训练模型权重不变，只优化prompt，那么对于特定的预训练模型来说，性能会存在上限，即全量数据训练的情况下比不上直接finetune整个模型（哪怕想过拟合都不行）。按照我的想法，这个现象应该是很普遍的，但我看贵作在superglue的实验结果，多数任务下p-tuning还优于直接finetune，这点应该怎么理解。

在SuperGlue部分的实验设定中，我们已经明确了需要同时fine-tune预训练模型，可以参考#4。 In the section for the SuperGlue experiment setting, we clarify that we need to fine-tune pre-trained models while using P-tuning. For more details please refer to #4.

谢谢，是我疏忽了。我以为SuperGlue和LAMA的设置是一样的，而LAMA的Table 2显然是固定了语言模型的。

bojone commented 3 years ago

4

你好，那最后再确认一下，在superglue任务中，是先固定预训练模型找出prompt然后再finetune整个模型，还是找prompt和finetune模型同时做的呢？

zheng-yanan commented 3 years ago

4

你好，那最后再确认一下，在superglue任务中，是先固定预训练模型找出prompt然后再finetune整个模型，还是找prompt和finetune模型同时做的呢？

在SuperGLUE任务中，找prompt和fine-tune模型是同时进行的。 In the SuperGLUE experiments, searching prompts and fine-tuning are conducted simultaneously.

chestnut111 commented 1 year ago

想了解一下，现在有chatgpt 3.5， 4这种比较强的工具了是不是可以不需要p-tuning这种技巧了？

THUDM / P-tuning

关于论文的一些疑惑 #5

4

4