yao8839836 / text_gcn

Graph Convolutional Networks for Text Classification. AAAI 2019
1.36k stars 434 forks source link

预训练效果不好的原因 #87

Open Tansy-Tansy opened 4 years ago

Tansy-Tansy commented 4 years ago

您好,我将您的模型应用在我的数据集上效果非常好。我看到您曾打算用glove预训练初始化特征向量,但是效果不太好,所以改用one-hot初始化,我后来也使用了bert、word2vec预训练初始化效果也不太好。由于对于gcn我才刚入门不久,所以对于这一点我很疑惑,请问您现在知道预训练初始化节点特征效果不好的原因吗?

yao8839836 commented 4 years ago

@Tansy-Tansy

您好,可能是因为原始GCN这种full batch的训练方式,每个epoch只更新一次参数,导致用word2vec, glove,bert初始化的参数收敛很慢。

依据是KDD‘19 ’ClusterGCN论文 https://dl.acm.org/doi/10.1145/3292500.3330925 中,第二页,第一段。. Furthermore, although the time per epoch is efficient, the convergence of gradient descent is slow since the parameters are updated only once per epoch。

guotong1988 commented 4 years ago

BERT https://www.zhihu.com/question/366088445

A11en0 commented 3 years ago

Bert是句子级的,请问您如何对词级的节点做表示?

yuyuyu320 commented 2 years ago

您好,我将您的模型应用在我的数据集上效果非常好。我看到您曾打算用glove预训练初始化特征向量,但是效果不太好,所以改用one-hot初始化,我后来也使用了bert、word2vec预训练初始化效果也不太好。由于对于gcn我才刚入门不久,所以对于这一点我很疑惑,请问您现在知道预训练初始化节点特征效果不好的原因吗?

大佬你好,我想问下您是如何嵌入预训练的词向量,希望能参考下您的代码。