Closed bbinwang closed 4 years ago
GPT是单向的,Bert是双向的,这跟这两个模型的训练目标有关系。GPT所作的任务是语言模型(Language Modeling), 它是根据当前序列词去预测下一个词的概率,是不可见下文的;而Bert所作的任务(不谈NSP)是根据上下文把当前词遮蔽,让模型通读上下文去预测这个被遮蔽的词;两者任务各有所长,对于可以看双向信息的任务来说(机器翻译Encoding, 文本分类,阅读理解等),Bert更适合;但对于文本生成或者其他这种顺序输出任务来说,GPT更加合适
安林 | |
---|---|
anlin781205936@126.com | 签名由网易邮箱大师定制 在2020年5月28日 14:57,bbinwangnotifications@github.com 写道:
GPT到BERT中的BidirectionalLM是指双向LSTM吗? 如果是的话,是不是应该 ELMo才是BidirectionalLM,然后指向BERT啊。
BERT和GPT都是Transformer,GPT指向BERT是Transformer。
— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or unsubscribe.
BERT从GPT借鉴的思想是使用transformer这种结构,并在此基础上进行了双向的编码,这个双向编码机制和bi-LSTM还是不太一样的;于此同时,ELMO是一个双向编码的模型,但是使用了LSTM作为基本编码框架,所以图上写了Transformer,意思是BERT相比于ELMO主要改进在于利用了Transformer。
GPT到BERT中的BidirectionalLM是指双向LSTM吗? 如果是的话,是不是应该 ELMo才是BidirectionalLM,然后指向BERT啊。
BERT和GPT都是Transformer,GPT指向BERT是Transformer。