Locating and Editing Factual Associations in GPT

NIPS 2022 | Kevin Meng et al. | MIT CSAIL NEU （5.13日边桑介绍）

研究GPT（单向=decoder）怎么存储事实的 a small bunch of neurons | casual intervention 例子： (A) The Space Needle is in the downtown of (Seattle). (B) is in the downtown of ( ). 通过把GPT的单个state注入到看( )中的概率变化，发现：

在key词结尾处，中间层会聚集形成value有关的信息；在query词处，会形成key吧前面的value转移过来。
分别看每层中的multi-head attention和MLP，发觉MLP形成信息预测，而后面的attention来收集。
MLP中的两层（可能GPT是这样）前层负责产生内容key，后层产生value。
- 通过BP可以只用修改单个value来达到编辑的效果。（不是直接编辑就很聪明）
- 也注意到，修改一个value会引起其他关联知识的改变。（这部分有待节藕）
- 单向decoder是这种形式，也许也是人类大脑的工作形式。双向的也许会不同；与人类不同，知识并不对偶，A关联B，改B应该也能改A。

Where do knowledge live? Grandma neuron? 分布但聚合；同质框架中的异质；知识和事实在哪儿？（激发） LLM是人类精华，相信一定有精彩的结构。

zchen0420 commented 5 months ago

Mass-Editing Memory in a Transformer

ICLR 2022 | Kevin Meng et al. |

先前研究：

Modifying memories in transformer models (constrained fine-tuning)
Meta-learning (同时进行多种任务并知道他们之间的关系) / Hypernetwork knowledge editing

Inference-Time Intervention: Eliciting Truthful Answers from a Language Model

The Internal State of an LLM Knows When It’s Lying

Large Language Models as Analogical Reasoners

Do Moral Judgment and Reasoning Capability of LLMs Change with Language? A Study using the Multilingual Defining Issues Test

2024 EACL | 边桑介绍中、北印、俄、西班牙、Swahili的道德：Hindi和Swahili很不好。其他的不明显。Defining Issues Test (DIT) (Rest, 1986) on Cognitive Moral Development (CMD) (Kohlberg, 1958)。 GPT-4像研究生、其他大模型和一般成人差不多。说不同语言时，对moral dilemmas的反应也不同，utilitarian choices。

zchen0420 commented 5 months ago

On the Multilingual Ability of Decoder-based Pre-trained Language Models: Finding and Controlling Language-Specific Neurons

（金于5.15介绍）

使用统计方法寻找语言相关neuron（LSN）

发现语言之间的LSN交集并不多：彼此之间的交集大小不足各自的5%
没有prompt通过干预neuron能生成对应的句子
通过prompt进行翻译：
- prompt不指定target：修改neuron能输出该语言的句子，但是BLEU上的改进不大。
- 指定target：同时修改neuron，抵挡不过prompt。在相同字符集（汉字）上，会打平手。

zchen0420 commented 5 months ago

DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models

2024 ICLR | MIT Microsoft | Yung-Sung Chuang et al.

我感觉和ROME的观点很像，facts存在于不同的层，并不总会流到顶层输出。通过动态寻找最终层softmax和JSD最大的premature层，来代替原有输出（不经过推理演变出来的信息是死的幻觉）。理由和根据：

最大似然是让数据和模型之间的KL最小，让LM在未联系知识时就最大化某些值。
Kullback–Leibler (KL) divergence： $D_{KL}(P||Q) = \sum_x P(x)\log{\frac{P(x)}{Q(x)}}$ (aka. relative entropy)
Shannon entropy $H(P)=-\sum_x P(x)\log{P(x)}$
$PPL(X)=exp(\sum_t -log(p(xt|x{\lt t}))/T)$

zchen0420 commented 4 months ago

Probing Structured Pruning on Multilingual Pre-trained Models: Settings, Algorithms, and Efficiency

单独基于某个语言砍效果不大；简单的方法效果好；快≠小； Dynamic Sparsification：能看到指定大小。

zchen0420 / nn_papers

A Few Neurons: High-level Concentration #11

Locating and Editing Factual Associations in GPT

Mass-Editing Memory in a Transformer

Inference-Time Intervention: Eliciting Truthful Answers from a Language Model

The Internal State of an LLM Knows When It’s Lying

Large Language Models as Analogical Reasoners

Do Moral Judgment and Reasoning Capability of LLMs Change with Language? A Study using the Multilingual Defining Issues Test

On the Multilingual Ability of Decoder-based Pre-trained Language Models: Finding and Controlling Language-Specific Neurons

DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models

Probing Structured Pruning on Multilingual Pre-trained Models: Settings, Algorithms, and Efficiency