Open JinruYang opened 11 months ago
你好,对于数据集中没有图像的新闻,我在实验中没有使用这部分数据。和MCAN保持一致,为了处理多模态的问题,我们从数据集中过滤掉了只有text或者只有image的新闻数据。
为什么按照您的代码,微博的训练和测试数据集变多了(相比较一些论文),推特的训练集变多,测试集变少了呢,有没有解释呢?
按照您的代码,微博的训练和测试数据集变多了(相比较一些论文),推特的集变多了,为什么测试集变少了呢,有没有解释一下呢?
请问您复现出来推特数据集的结果了吗?
@184446223 你好,因为我在实验中没有限制新闻中的文本长度。有些论文去掉了新闻中文本长度少于某个阈值的新闻样本(可能是因为文本太短的话难以包含有效的区分真假的信息),所有我在数据处理之后的样本数目可能和其他论文不一样。
@184446223 你好,关于MCAN方法,我没有复现出论文原文中的0.809准确率,但是我得到了0.796的准确率,具体可以参照我们的论文:Not all Fake News is Semantically Similar: Contextual Semantic Representation Learning for Multimodal Fake News Detection,开源代码在这里:https://github.com/plw-study/CSFND
你好,对于数据集中没有图像的新闻,我在实验中没有使用这部分数据。和MCAN保持一致,为了处理多模态的问题,我们从数据集中过滤掉了只有text或者只有image的新闻数据。
您好,请问按照您这份复现代码处理数据出来的样本数量是跟MCAN的一样的吗?
您好,首先非常感谢您能够开源代码。我有一个问题想求教,我发现weibo数据集中有3500条训练集的新闻是没有图片的,请问您是如何处理的?