zchen0420 commented 1 month ago

Explaining Data Patterns in Natural Language with Language Models

2023 BlackboxNLP Workshop at ACL | MSR & Cornell U 不断的生成解释，并进行排序。找出一个最具解释性的prompt。 Explanation: symbolic regression,

Automatic Chain of Thought Prompting in Large Language Models

Manual-CoT → Auto-CoT; Question Clustering + Demonstration sampling;

Meta-learning via Language Model In-context Tuning

ACL 2022 | Columbia University, UCB, AWS AI, NYU | Yanda Chen, Ruiqi Zhong, Sheng Zha, George Karypis, and He He

MAML类似Prompt tuning（有任务级别的梯度）、instruction tuning（有任务指令）

但是，这个梯度只在有限的例子中收集，并应用于该任务中。很适合few-shot。（有精力再读一读）

PPT: Pre-trained Prompt Tuning for Few-shot Learning

zchen0420 commented 1 month ago

人类语言的Prompt

Large Language Models are Zero-Shot Reasoners

CoT → “Let’s think step by step”

[Least-to-Most Prompting Enables Complex Reasoning in Large Language Models]()

2023 ICLR | Denny Zhou et al., | Google Research, Brain Team

递归思想：把大问题化解成为小问题，放到处理队列中。 Compositional generalization SCAN, 14个例子few-shot达成15K例子的模型效果。

LLMs are Few-Shot In-Context Low-Resource Language Learners

NAACL 2024 | （Oryza于5.22介绍）不同的ICL形式（前后）、不同的X-ICL形式（不同语言间的翻译例子，label和query）有一定效果，但是不是特别明显。

zchen0420 commented 1 month ago

寻找有效的ICL/few-shot demonstration

Making Pre-trained Language Models Better Few-shot Learners

2021 ACL | Tianyu Gao et al. | Princeton U, MIT

GPT-3出现时的few-shot：低资源时，给出示例、给出选项。 LM-BFF：BERT的[CLS][MASK]、T5的<X><Y><Z> Prompt-Based Fine-Tuning 是template+[MASK]+demonstration+fine-tune的混合，但比单纯fine-tune好。 Auto T/L：对于Template/Label generation，T5的互补span正好用上了 Sentence classification tasks (SST-5, MR, CR, MPQA, Subj, TREC)、最后的Appendix任务模版。【我在读到STS-B是regression 任务时，对regression/classification有了更好理解。】

What Makes Good In-Context Examples for GPT-3?

2022 Deelio | Jiachang Liu et al. | Duke U, MS(R)

（随机）瞎选例子、选语义更远的例子会让ICL能力变糟（甚至出现TS般的幻觉：不遵循ToTTo的原信息） KATE/Retrieval-based prompt：tune一个本地模型（RoBERTa）选择和test sample[CLS]语义相似的kNN例子能帮助ICL。基于GPT-3实验：Sentiment Analysis（SST-2、IMDB）、Table-to-Text Generation（ToTTo）、Question Answering（Natural、Web、Trivia Q）；tune：SNLI, MultiNLI, STS-B

疑问：QA的一些事实问题是否也有一些碎片/proposal被激发了？（Kevin Meng的文章）

zchen0420 commented 1 month ago

寻找LLM喜欢的Prompt

AUTOPROMPT: Eliciting Knowledge from Language Models with Automatically Generated Prompts

EMNLP 2020 | UCI & UCB | 作者自述视频 AutoPrompt是基于梯度的，且无需更新模型

MLM在不用微调时，就已经能通过cloze做推理了。
LAMA benchmark
GPT: TL;DR

过程

触发序列的搜索
1. 需要一组数据作为calibration data和几个标签词；
2. 以最大化相应的标签概率：以一组[MASK]开始，预测词并产生生梯度（只用一次/一阶的更新量）来搜寻最似然的代替词；
3. 循环直至所有的的[MASK]都被替代掉。
寻找输出标记
- 除了上面的几个标签，也需要在空间中寻找词义相近的一些备用词。

观察

AutoPrompt能比肩manual promt
有时能比肩ft（数据量不大时有优势）
- 模型作弊，记住了pre-training时期看过的例子：改变一下无关的词，效果就变差了。
有时不能
- 因为标签比例太不均，太多没见任务

RLPROMPT: Optimizing Discrete Text Prompts with Reinforcement Learning

EMNLP 2022 | CMU, UCSD, MIT, etc | 视频 LLM的效果好不好取决于prompt：即使意思等价，但是效果差别却很大。

人工很难穷举；列举让机器选择；数值调整难解释（最近选词的差异也大；需要白盒/数值的不兼容）
使用RL进行探索；

Reward design:

Has training data: use data
No data, but know how to measure success
No data and no measure: Learn a metric to approximate a human judgment.

观察：

在few-shot上，RLPrompt比fine-tuning、in-context、soft prompt、blackbox tuning、Auto-prompt更好。
他们找到的最优prompt并不是人类语言，但是这些prompt却能在不同的模型上保持好效果（一直强于人工）。

感想： LLM的确接近人类了，在最常见的区域和人相似、和人互通。在是在不那么常见的区域，他还是有一些不那么像人的“穴位”。这些“穴位”在LLM上居然是共同的，说明了某方面（训练的特点等）的必然性。如果LLM未来有新的范式，他们还有用吗？是否考虑创造新语言呢？

The Power of Scale for Parameter-Efficient Prompt Tuning

EMNLP 2021 | Google Research | Brian Lester, Rami Al-Rfou, and Noah Constant

重要概念解释和梳理

Discrete text prompt → soft prompt Model tuning → prefix tuning - intermediate-layer prefixes or task-specific output layers = prompt tuning

ELMo是首先提出用pre-trained外task-specific weighting的。
GPT和BERT则提倡model tuning
GPT回到带有示例的prompt：prompt选择的优劣；

T5（没读完，这里可以了解T5的一些特性）

$Pr(y\vert X) \rightarrow Pr(Y\vert X)$ text-to-text把不同的task统一成text。
Sentinel 输入和输出通过sentinel对偶。以此来跨越BERT里单个mask的局限。

zchen0420 / nn_papers

Prompt #5

Explaining Data Patterns in Natural Language with Language Models

Automatic Chain of Thought Prompting in Large Language Models

Meta-learning via Language Model In-context Tuning

PPT: Pre-trained Prompt Tuning for Few-shot Learning

人类语言的Prompt

Large Language Models are Zero-Shot Reasoners

[Least-to-Most Prompting Enables Complex Reasoning in Large Language Models]()

LLMs are Few-Shot In-Context Low-Resource Language Learners

寻找有效的ICL/few-shot demonstration

Making Pre-trained Language Models Better Few-shot Learners

What Makes Good In-Context Examples for GPT-3?

寻找LLM喜欢的Prompt

AUTOPROMPT: Eliciting Knowledge from Language Models with Automatically Generated Prompts

RLPROMPT: Optimizing Discrete Text Prompts with Reinforcement Learning

The Power of Scale for Parameter-Efficient Prompt Tuning

重要概念解释和梳理