Open MiaoRain opened 4 years ago
LSTM神经网络输入输出究竟是怎样的? https://www.zhihu.com/question/41949741/answer/318771336
第二周 NLP and Word embeddings Word2Vec介绍:直观理解skip-gram模型 https://zhuanlan.zhihu.com/p/29305464 理解 Word2Vec 之 Skip-Gram 模型 https://zhuanlan.zhihu.com/p/27234078 通俗易懂理解——Skip-gram的负采样 https://zhuanlan.zhihu.com/p/39684349
详解Transformer https://zhuanlan.zhihu.com/p/48508221
作者采用Attention机制的原因是考虑到RNN(或者LSTM,GRU等)的计算限制为是顺序的,也就是说RNN相关算法只能从左向右依次计算或者从右向左依次计算,这种机制带来了两个问题:
Transformer的提出解决了上面两个问题,首先它使用了Attention机制,将序列中的任意两个位置之间的距离是缩小为一个常量;其次它不是类似RNN的顺序结构,因此具有更好的并行性,符合现有的GPU框架。论文中给出Transformer的定义是:Transformer is the first transduction model relying entirely on self-attention to compute representations of its input and output without using sequence aligned RNNs or convolution。
https://www.bilibili.com/video/av95315327/ 李宏毅NLP课程
https://www.bilibili.com/video/BV1gb411j7Bs?p=149 吴恩达课程 https://zhuanlan.zhihu.com/p/47108882 笔记 https://blog.csdn.net/u013733326/article/details/79827273 课后作业
序列模型用在了很多的地方,如语音识别,音乐生成,情感分类,DNA序列分析,机器翻译,视频内容检测,名字检测等等。
什么是语言模型?
对于下面的例子,两句话有相似的发音,但是想表达的意义和正确性却不相同,如何让我们的构建的语音识别系统能够输出正确地给出想要的输出。也就是对于语言模型来说,从输入的句子中,评估各个句子中各个单词出现的可能性,进而给出整个句子出现的可能性。