预训练效果不好的原因

yao8839836 / text_gcn

Graph Convolutional Networks for Text Classification. AAAI 2019

1.36k stars 434 forks source link

预训练效果不好的原因 #87

Open Tansy-Tansy opened 4 years ago

Tansy-Tansy commented 4 years ago

您好，我将您的模型应用在我的数据集上效果非常好。我看到您曾打算用glove预训练初始化特征向量，但是效果不太好，所以改用one-hot初始化，我后来也使用了bert、word2vec预训练初始化效果也不太好。由于对于gcn我才刚入门不久，所以对于这一点我很疑惑，请问您现在知道预训练初始化节点特征效果不好的原因吗？

yao8839836 commented 4 years ago

@Tansy-Tansy

您好，可能是因为原始GCN这种full batch的训练方式，每个epoch只更新一次参数，导致用word2vec, glove，bert初始化的参数收敛很慢。

依据是KDD‘19 ’ClusterGCN论文 https://dl.acm.org/doi/10.1145/3292500.3330925 中，第二页，第一段。. Furthermore, although the time per epoch is efficient, the convergence of gradient descent is slow since the parameters are updated only once per epoch。

guotong1988 commented 4 years ago

BERT https://www.zhihu.com/question/366088445

A11en0 commented 3 years ago

Bert是句子级的，请问您如何对词级的节点做表示？

yuyuyu320 commented 2 years ago

您好，我将您的模型应用在我的数据集上效果非常好。我看到您曾打算用glove预训练初始化特征向量，但是效果不太好，所以改用one-hot初始化，我后来也使用了bert、word2vec预训练初始化效果也不太好。由于对于gcn我才刚入门不久，所以对于这一点我很疑惑，请问您现在知道预训练初始化节点特征效果不好的原因吗？

大佬你好，我想问下您是如何嵌入预训练的词向量，希望能参考下您的代码。