检查一个word embedding的correlation map:W^T x W,得到h x h的矩阵(正规化)。如果这个矩阵是接近单位矩阵(对角接近1,其他接近0),则说明学到的embedding的不同维度之间是独立的(他认为这种独立性的embedding更好,context交给上层的网络学就好)
论文信息
Author: Washington University
[Paper](DeFINE: Deep Factorized Input Token Embeddings for Neural Sequence Modeling)
简介
对word embedding的一种改进。直接lookup table的方式,参数量大;一些存在的减少lookup table参数量的方法,如
projective embedding
(用两个投影,大->小->大),adaptive embedding
(根据freq将token聚类,不同类别dimension不同)等,但这些方法都很浅。DEFINE
其实就是想往深了搞,这里借鉴了group linear transform
(GLT)的思路,同group的方式减少linear transformer的开销(跟full connection相比,更稀疏)。而跟GLT不同之处在于,DEFINE
里用了所谓的HGT
结构,#group是随深度变化的(e.g. 开始group大,越往上group // 2),而GLT是fixed。所以HGT
比GLT
对group之间有更多的感知。但是深的网络带来的问题是不好训练,但HGT
因为不同层dim不同,无法直接residual connection,文章用了一些相对巧妙的方法做,就是把small input embedding在每层中都group-wise cat进去(不是像残差一样是相邻层之间搞,这个就是搞最底层)。训练的时候速度肯定是慢了一些,但是Inference时,每个token的DEFINE
表示可以cache起来,所以最后跟lookup table一样。有意思的点
DEFINE
中加深是明显有好处的h x h
的矩阵(正规化)。如果这个矩阵是接近单位矩阵(对角接近1,其他接近0),则说明学到的embedding的不同维度之间是独立的(他认为这种独立性的embedding更好,context交给上层的网络学就好)论文信息
总结