carlos9310 / github_pages_comments

Just add comments to my github pages
0 stars 0 forks source link

transformer-XL与XLNet笔记 — carlos9310 #34

Open carlos9310 opened 4 years ago

carlos9310 commented 4 years ago

https://carlos9310.github.io/2019/11/11/transformer-xl-and-xlnet/

基于transformer-XL的XLNet是目前在BERT基础上改动较大的后起之秀。在超长文本的场景下,XLNet相比其他bert系列的模型会有更好的性能(recurrent机制使其可捕获更长的上下文依赖关系)以及更快的训练与推理速度(memory单元中缓存了之前(一个或多个)段的隐状态信息,避免了重复计算),且在一般长度的文本场景中会有更完整的语义信息(PLM考虑了被mask的token间的联系)。以上分析都是基于paper中的理论。实际上,当有足够多的数据时,bert系列的各个版本在大部分场景(超长文本的场景比较少,显现不出XLNet的优势)下的效果差别不大。