wangqiangneu / MT-PaperReading

Record my paper reading about Machine Translation and other related works.
36 stars 2 forks source link

20-ICLR-DEFINE: DEEP FACTORIZED INPUT TOKEN EMBEDDINGS FOR NEURAL SEQUENCE MODELING #58

Open wangqiangneu opened 4 years ago

wangqiangneu commented 4 years ago

简介

对word embedding的一种改进。直接lookup table的方式,参数量大;一些存在的减少lookup table参数量的方法,如projective embedding (用两个投影,大->小->大),adaptive embedding (根据freq将token聚类,不同类别dimension不同)等,但这些方法都很浅。DEFINE其实就是想往深了搞,这里借鉴了group linear transform (GLT)的思路,同group的方式减少linear transformer的开销(跟full connection相比,更稀疏)。而跟GLT不同之处在于,DEFINE里用了所谓的HGT结构,#group是随深度变化的(e.g. 开始group大,越往上group // 2),而GLT是fixed。所以HGTGLT对group之间有更多的感知。但是深的网络带来的问题是不好训练,但HGT因为不同层dim不同,无法直接residual connection,文章用了一些相对巧妙的方法做,就是把small input embedding在每层中都group-wise cat进去(不是像残差一样是相邻层之间搞,这个就是搞最底层)。训练的时候速度肯定是慢了一些,但是Inference时,每个token的DEFINE表示可以cache起来,所以最后跟lookup table一样。

有意思的点

论文信息

总结