yao8839836 / fast_text_gcn

FastGCN for inductive text classification
85 stars 22 forks source link

Graph Convolutional Networks for Text Classification的问题 #3

Open kangwenzhuang opened 4 years ago

kangwenzhuang commented 4 years ago

我是新手,论文中的意思是,TextGNN对于新的测试集不能使用(也就是说不能通过保存模型,然后预测),我这样的理解对不对? 那么FastTextGNN可以预测新的测试集,是这样吗?是怎么做到的

yao8839836 commented 4 years ago

@kangwenzhuang

您的理解是对的。FastGCN通过采样方式做到,具体请阅读FastGCN原文。

kangwenzhuang commented 4 years ago

你好!看了你的fastGCN文本分类又有了新的问题,进行新的数据集测试的时候 image features应该怎么写,不是很懂,谢谢!

yao8839836 commented 4 years ago

@kangwenzhuang

features就是one-hot矩阵,只有主对角线元素全为1,其维度是(训练集大小 + 测试集大小)* (训练集大小 + 测试集大小)。为了方便,可以每次传入固定大小的测试集。

kangwenzhuang commented 4 years ago

谢谢! 假如我有一个新的测试集,然后假设大小为1个节点,features是(训练集大小+1)*(训练集大小+1)。此时有个疑问困扰了我好久:这1个节点,和训练集中的节点的连接需要重新计算吗?上面的模型是怎么对这1个节点进行预测?您的这个fast_gcn text是否考虑这个点,此时的邻接矩阵怎么表示 谢谢!!!

yao8839836 commented 4 years ago

@kangwenzhuang

你好,需要重新将这1个节点与训练集中的单词节点连接,IDF就用训练集算好的,TF在这个节点对应的测试文档内计算。此时训练子图(训练文档和单词组成的图)不变

注意训练得到模型的测试集是多大(比如1),后续测试集就应该是多大。

kangwenzhuang commented 4 years ago

您好!IDF用训练集算好的这一点不是很理解,IDF=log(总文档数/包含该词的文档数)。如果换了新的测试集测试,那分母不是变化了吗,运用以前的模型还可以吗?

可以这样理解吗?IDF就是一个衡量一个词的重要程度的因子,算过这个因子之后没必要再计算,直接让TF乘以它就行

yao8839836 commented 4 years ago

@kangwenzhuang

您好,可以这样理解,还有如果训练集足够大,IDF应该已经稳定,不会受测试集影响。

kangwenzhuang commented 4 years ago

谢谢!!!

kangwenzhuang commented 4 years ago

您好!采用采样的方法,还保持原来的半监督性吗?

yao8839836 commented 4 years ago

@kangwenzhuang

您好,不是半监督的了,因为测试集的节点和边没有参与训练过程。

guotong1988 commented 4 years ago

同问,谢谢。