plw-study / Reproduction_of_MCAN

This is the reproduction of MCAN from paper in ACL 2021: "Multimodal Fusion with Co-Attention Networks for Fake News Detection"
35 stars 3 forks source link

关于weibo数据集的问题。 #2

Open JinruYang opened 11 months ago

JinruYang commented 11 months ago

您好,首先非常感谢您能够开源代码。我有一个问题想求教,我发现weibo数据集中有3500条训练集的新闻是没有图片的,请问您是如何处理的?

plw-study commented 11 months ago

你好,对于数据集中没有图像的新闻,我在实验中没有使用这部分数据。和MCAN保持一致,为了处理多模态的问题,我们从数据集中过滤掉了只有text或者只有image的新闻数据。

184446223 commented 4 months ago

为什么按照您的代码,微博的训练和测试数据集变多了(相比较一些论文),推特的训练集变多,测试集变少了呢,有没有解释呢?

184446223 commented 3 months ago

按照您的代码,微博的训练和测试数据集变多了(相比较一些论文),推特的集变多了,为什么测试集变少了呢,有没有解释一下呢?

请问您复现出来推特数据集的结果了吗?

plw-study commented 3 months ago

@184446223 你好,因为我在实验中没有限制新闻中的文本长度。有些论文去掉了新闻中文本长度少于某个阈值的新闻样本(可能是因为文本太短的话难以包含有效的区分真假的信息),所有我在数据处理之后的样本数目可能和其他论文不一样。

plw-study commented 3 months ago

@184446223 你好,关于MCAN方法,我没有复现出论文原文中的0.809准确率,但是我得到了0.796的准确率,具体可以参照我们的论文:Not all Fake News is Semantically Similar: Contextual Semantic Representation Learning for Multimodal Fake News Detection,开源代码在这里:https://github.com/plw-study/CSFND

will5Z commented 2 months ago

你好,对于数据集中没有图像的新闻,我在实验中没有使用这部分数据。和MCAN保持一致,为了处理多模态的问题,我们从数据集中过滤掉了只有text或者只有image的新闻数据。

您好,请问按照您这份复现代码处理数据出来的样本数量是跟MCAN的一样的吗?