Embedding - Githubissues

PaPaPaPatrick commented 1 year ago

embedding的原理及实践 https://qiankunli.github.io/2022/03/02/embedding.html

Embedding 的过程，就是把数据集合映射到向量空间，进而把数据进行向量化的过程。Embedding 的目标，就是找到一组合适的向量，来刻画现有的数据集合。一种将离散变量表示为连续向量的方法。embedding向量是指映射后的特征空间中连续且稠密的高维向量。数值化的embedding vector本身是没有意义的，不同vector之间的相对关系才是有实际意义的。特别是 Graph Embedding 技术被提出后，Embedding 几乎可以引入任何信息进行编码，使其本身就包含大量有价值的信息，所以通过预训练得到的 Embedding 向量本身就是极其重要的特征向量。

它们之间的关系，用嵌入层学习来的参数进行表征。这个从稀疏矩阵到密集矩阵的过程，叫做embedding，很多人也把它叫做查表，因为它们之间也是一个一一映射的关系。这种映射关系在反向传播的过程中一直在更新。因此能在多次epoch后，使得这个关系变成相对成熟，即：正确的表达整个语义以及各个语句之间的关系。这个成熟的关系，就是embedding层的所有权重参数。Embedding最大的劣势是无法解释每个维度的含义，这也是复杂机器学习模型的通病。

如何生成? 矩阵分解无监督建模有监督建模

Embedding的表征的Matrix是怎么得到的？相关性的关系如何保证是正确的？

PaPaPaPatrick commented 1 year ago

神经网络嵌入解释 https://blog.csdn.net/weixin_39653948/article/details/108999592

神经网络嵌入克服了代表分类变量的通用方法one-hot编码的两个局限性。 one-hot编码技术有两个主要缺点：对于高基数变量（具有许多独特类别的变量），转换后的向量的维数变得难以管理。映射是完全不了解的：“相似”类别在嵌入空间中不会相互靠近。

神经网络嵌入是离散数据作为连续向量的低维表示。这些嵌入克服了传统编码方法的局限性，可用于查找最近的邻居，输入另一个模型和可视化等目的。

PaPaPaPatrick commented 1 year ago

神经网络 Embeddings 理解：离散分类变量到连续数向量的映射 https://zhuanlan.zhihu.com/p/420468695 神经网络Embedding是学习离散数据作为连续向量的低维表示。这些Embedding克服了传统编码方法的局限性，可用于查找最近邻、输入到另一个模型和可视化等目的。

PaPaPaPatrick commented 1 year ago

从论文源码学习之 embedding层如何自动更新 https://mp.weixin.qq.com/s/v0K_9Y6aWAyHj7N1bIGvBw 有比较细节的反向迭代和Python代码的解析及优化过程中调用的使用和说明

PaPaPaPatrick commented 1 year ago

embedding的原理及实践 https://qiankunli.github.io/2022/03/02/embedding.html

PaPaPaPatrick / NN

Embedding #13