RNN - Githubissues

MiaoRain / lund

9 stars 2 forks source link

RNN #40

Open MiaoRain opened 4 years ago

MiaoRain commented 4 years ago

https://www.bilibili.com/video/av95315327/ 李宏毅NLP课程

https://www.bilibili.com/video/BV1gb411j7Bs?p=149 吴恩达课程 https://zhuanlan.zhihu.com/p/47108882 笔记 https://blog.csdn.net/u013733326/article/details/79827273 课后作业

序列模型用在了很多的地方，如语音识别，音乐生成，情感分类，DNA序列分析，机器翻译，视频内容检测，名字检测等等。

什么是语言模型？

对于下面的例子，两句话有相似的发音，但是想表达的意义和正确性却不相同，如何让我们的构建的语音识别系统能够输出正确地给出想要的输出。也就是对于语言模型来说，从输入的句子中，评估各个句子中各个单词出现的可能性，进而给出整个句子出现的可能性。

MiaoRain commented 4 years ago

LSTM神经网络输入输出究竟是怎样的？ https://www.zhihu.com/question/41949741/answer/318771336

MiaoRain commented 4 years ago

MiaoRain commented 4 years ago

第二周 NLP and Word embeddings Word2Vec介绍：直观理解skip-gram模型 https://zhuanlan.zhihu.com/p/29305464 理解 Word2Vec 之 Skip-Gram 模型 https://zhuanlan.zhihu.com/p/27234078 通俗易懂理解——Skip-gram的负采样 https://zhuanlan.zhihu.com/p/39684349

MiaoRain commented 4 years ago

详解Transformer https://zhuanlan.zhihu.com/p/48508221

作者采用Attention机制的原因是考虑到RNN（或者LSTM，GRU等）的计算限制为是顺序的，也就是说RNN相关算法只能从左向右依次计算或者从右向左依次计算，这种机制带来了两个问题：

时间片 [公式] 的计算依赖 [公式] 时刻的计算结果，这样限制了模型的并行能力；
顺序计算的过程中信息会丢失，尽管LSTM等门机制的结构一定程度上缓解了长期依赖的问题，但是对于特别长期的依赖现象,LSTM依旧无能为力。

Transformer的提出解决了上面两个问题，首先它使用了Attention机制，将序列中的任意两个位置之间的距离是缩小为一个常量；其次它不是类似RNN的顺序结构，因此具有更好的并行性，符合现有的GPU框架。论文中给出Transformer的定义是：Transformer is the first transduction model relying entirely on self-attention to compute representations of its input and output without using sequence aligned RNNs or convolution。

MiaoRain commented 4 years ago