issues
search
ant-research
/
StructuredLM_RTDT
A library for building hierarchical text representation and corresponding downstream applications.
Apache License 2.0
76
stars
15
forks
source link
关于backbone的疑问。
#1
Closed
wulaoshi
closed
2 years ago
wulaoshi
commented
2 years ago
作者你好,非常感谢你的贡献,我觉得你的工作很有意义,感觉是一个新方向。 有2个疑问需要请教一下:
encoder 使用 transformer,基于注意力的模型,其能力很大部门来源于能通过注意力机制编码出上下文中有用的信息,但这里每次输入只有 [SUM], [CLS], [token1], [token2] 共4个,上下文短,个人感觉 transformer 可能不是最合适的,有试过其它编码器吗?比如gru,或者textCNN?
有办法并行编码吗?虽然 transformer 的时间复杂度高,但是GPU并行编码很好解决了训练时间长的问题。从论文的E图看 CKY 树编码,一个 token 要分别编码几次,这样会不会导致训练时间实际更长?如,3层 R2D2 比 12 层 transformer 训练数据时间更长? 谢谢作者。
imhuim982
commented
2 years ago
谢谢
我们尝试过LSTM,mlp,但表现确实均不如Transformer。论文后面有一处和LSTM的对比实验
这个版本确实比较慢,主要是实现的问题。通过优化实现以及通过cuda实现剪枝,我们速度大概可以提升15倍左右,和12层bert基本可以差不多了。我们正在准备下一篇工作,如果顺利的话会把源码开放出来。
作者你好,非常感谢你的贡献,我觉得你的工作很有意义,感觉是一个新方向。 有2个疑问需要请教一下: