Graph Convolutional Networks for Text Classification的问题

yao8839836 / fast_text_gcn

FastGCN for inductive text classification

85 stars 22 forks source link

Graph Convolutional Networks for Text Classification的问题 #3

Open kangwenzhuang opened 5 years ago

kangwenzhuang commented 5 years ago

我是新手，论文中的意思是，TextGNN对于新的测试集不能使用（也就是说不能通过保存模型，然后预测），我这样的理解对不对？那么FastTextGNN可以预测新的测试集，是这样吗？是怎么做到的

yao8839836 commented 5 years ago

@kangwenzhuang

您的理解是对的。FastGCN通过采样方式做到，具体请阅读FastGCN原文。

kangwenzhuang commented 5 years ago

你好！看了你的fastGCN文本分类又有了新的问题，进行新的数据集测试的时候 features应该怎么写，不是很懂，谢谢！

yao8839836 commented 5 years ago

@kangwenzhuang

features就是one-hot矩阵，只有主对角线元素全为1，其维度是（训练集大小 + 测试集大小）* （训练集大小 + 测试集大小）。为了方便，可以每次传入固定大小的测试集。

kangwenzhuang commented 5 years ago

谢谢！假如我有一个新的测试集，然后假设大小为1个节点，features是（训练集大小+1）*（训练集大小+1）。此时有个疑问困扰了我好久：这1个节点，和训练集中的节点的连接需要重新计算吗？上面的模型是怎么对这1个节点进行预测？您的这个fast_gcn text是否考虑这个点，此时的邻接矩阵怎么表示谢谢！！！

yao8839836 commented 5 years ago

@kangwenzhuang

你好，需要重新将这1个节点与训练集中的单词节点连接，IDF就用训练集算好的，TF在这个节点对应的测试文档内计算。此时训练子图（训练文档和单词组成的图）不变

注意训练得到模型的测试集是多大（比如1），后续测试集就应该是多大。

kangwenzhuang commented 5 years ago

您好！IDF用训练集算好的这一点不是很理解，IDF=log（总文档数/包含该词的文档数）。如果换了新的测试集测试，那分母不是变化了吗，运用以前的模型还可以吗？

可以这样理解吗？IDF就是一个衡量一个词的重要程度的因子，算过这个因子之后没必要再计算，直接让TF乘以它就行

yao8839836 commented 5 years ago

@kangwenzhuang

您好，可以这样理解，还有如果训练集足够大，IDF应该已经稳定，不会受测试集影响。

kangwenzhuang commented 5 years ago

谢谢！！！

kangwenzhuang commented 4 years ago

您好！采用采样的方法，还保持原来的半监督性吗？

yao8839836 commented 4 years ago

@kangwenzhuang

您好，不是半监督的了，因为测试集的节点和边没有参与训练过程。

guotong1988 commented 4 years ago

同问，谢谢。