PaPaPaPatrick / NN

0 stars 0 forks source link

Embedding #13

Open PaPaPaPatrick opened 1 year ago

PaPaPaPatrick commented 1 year ago

embedding的原理及实践 https://qiankunli.github.io/2022/03/02/embedding.html

Embedding 的过程,就是把数据集合映射到向量空间,进而把数据进行向量化的过程。Embedding 的目标,就是找到一组合适的向量,来刻画现有的数据集合。一种将离散变量表示为连续向量的方法。embedding向量是指映射后 的特征空间中连续且稠密的高维向量。 数值化的embedding vector本身是没有意义的,不同vector之间的相对关系才是有实际意义的。 特别是 Graph Embedding 技术被提出后,Embedding 几乎可以引入任何信息进行编码,使其本身就包含大量有价值的信息,所以通过预训练得到的 Embedding 向量本身就是极其重要的特征向量。

它们之间的关系,用嵌入层学习来的参数进行表征。这个从稀疏矩阵到密集矩阵的过程,叫做embedding,很多人也把它叫做查表,因为它们之间也是一个一一映射的关系。这种映射关系在反向传播的过程中一直在更新。因此能在多次epoch后,使得这个关系变成相对成熟,即:正确的表达整个语义以及各个语句之间的关系。这个成熟的关系,就是embedding层的所有权重参数。Embedding最大的劣势是无法解释每个维度的含义,这也是复杂机器学习模型的通病。

如何生成? 矩阵分解 无监督建模 有监督建模

Embedding的表征的Matrix是怎么得到的?相关性的关系如何保证是正确的?

PaPaPaPatrick commented 1 year ago

神经网络嵌入解释 https://blog.csdn.net/weixin_39653948/article/details/108999592

神经网络嵌入克服了代表分类变量的通用方法one-hot编码的两个局限性。 one-hot编码技术有两个主要缺点: 对于高基数变量(具有许多独特类别的变量),转换后的向量的维数变得难以管理。 映射是完全不了解的:“相似”类别在嵌入空间中不会相互靠近。

神经网络嵌入是离散数据作为连续向量的低维表示。这些嵌入克服了传统编码方法的局限性,可用于查找最近的邻居,输入另一个模型和可视化等目的。

PaPaPaPatrick commented 1 year ago

神经网络 Embeddings 理解:离散分类变量到连续数向量的映射 https://zhuanlan.zhihu.com/p/420468695 神经网络Embedding是学习离散数据作为连续向量的低维表示。这些Embedding克服了传统编码方法的局限性,可用于查找最近邻、输入到另一个模型和可视化等目的。

PaPaPaPatrick commented 1 year ago

从论文源码学习 之 embedding层如何自动更新 https://mp.weixin.qq.com/s/v0K_9Y6aWAyHj7N1bIGvBw 有比较细节的反向迭代和Python代码的解析及优化过程中调用的使用和说明

PaPaPaPatrick commented 1 year ago

embedding的原理及实践 https://qiankunli.github.io/2022/03/02/embedding.html