Open kangwenzhuang opened 5 years ago
@kangwenzhuang
您的理解是对的。FastGCN通过采样方式做到,具体请阅读FastGCN原文。
你好!看了你的fastGCN文本分类又有了新的问题,进行新的数据集测试的时候 features应该怎么写,不是很懂,谢谢!
@kangwenzhuang
features就是one-hot矩阵,只有主对角线元素全为1,其维度是(训练集大小 + 测试集大小)* (训练集大小 + 测试集大小)。为了方便,可以每次传入固定大小的测试集。
谢谢! 假如我有一个新的测试集,然后假设大小为1个节点,features是(训练集大小+1)*(训练集大小+1)。此时有个疑问困扰了我好久:这1个节点,和训练集中的节点的连接需要重新计算吗?上面的模型是怎么对这1个节点进行预测?您的这个fast_gcn text是否考虑这个点,此时的邻接矩阵怎么表示 谢谢!!!
@kangwenzhuang
你好,需要重新将这1个节点与训练集中的单词节点连接,IDF就用训练集算好的,TF在这个节点对应的测试文档内计算。此时训练子图(训练文档和单词组成的图)不变
注意训练得到模型的测试集是多大(比如1),后续测试集就应该是多大。
您好!IDF用训练集算好的这一点不是很理解,IDF=log(总文档数/包含该词的文档数)。如果换了新的测试集测试,那分母不是变化了吗,运用以前的模型还可以吗?
可以这样理解吗?IDF就是一个衡量一个词的重要程度的因子,算过这个因子之后没必要再计算,直接让TF乘以它就行
@kangwenzhuang
您好,可以这样理解,还有如果训练集足够大,IDF应该已经稳定,不会受测试集影响。
谢谢!!!
您好!采用采样的方法,还保持原来的半监督性吗?
@kangwenzhuang
您好,不是半监督的了,因为测试集的节点和边没有参与训练过程。
同问,谢谢。
我是新手,论文中的意思是,TextGNN对于新的测试集不能使用(也就是说不能通过保存模型,然后预测),我这样的理解对不对? 那么FastTextGNN可以预测新的测试集,是这样吗?是怎么做到的