关于weibo数据集的问题。

plw-study / Reproduction_of_MCAN

This is the reproduction of MCAN from paper in ACL 2021: "Multimodal Fusion with Co-Attention Networks for Fake News Detection"

35 stars 3 forks source link

关于weibo数据集的问题。 #2

Open JinruYang opened 11 months ago

JinruYang commented 11 months ago

您好，首先非常感谢您能够开源代码。我有一个问题想求教，我发现weibo数据集中有3500条训练集的新闻是没有图片的，请问您是如何处理的？

plw-study commented 11 months ago

你好，对于数据集中没有图像的新闻，我在实验中没有使用这部分数据。和MCAN保持一致，为了处理多模态的问题，我们从数据集中过滤掉了只有text或者只有image的新闻数据。

184446223 commented 4 months ago

为什么按照您的代码，微博的训练和测试数据集变多了(相比较一些论文)，推特的训练集变多，测试集变少了呢，有没有解释呢？

184446223 commented 3 months ago

按照您的代码，微博的训练和测试数据集变多了（相比较一些论文），推特的集变多了，为什么测试集变少了呢，有没有解释一下呢？

请问您复现出来推特数据集的结果了吗?

plw-study commented 3 months ago

@184446223 你好，因为我在实验中没有限制新闻中的文本长度。有些论文去掉了新闻中文本长度少于某个阈值的新闻样本（可能是因为文本太短的话难以包含有效的区分真假的信息），所有我在数据处理之后的样本数目可能和其他论文不一样。

plw-study commented 3 months ago

@184446223 你好，关于MCAN方法，我没有复现出论文原文中的0.809准确率，但是我得到了0.796的准确率，具体可以参照我们的论文：Not all Fake News is Semantically Similar: Contextual Semantic Representation Learning for Multimodal Fake News Detection，开源代码在这里：https://github.com/plw-study/CSFND

will5Z commented 2 months ago

你好，对于数据集中没有图像的新闻，我在实验中没有使用这部分数据。和MCAN保持一致，为了处理多模态的问题，我们从数据集中过滤掉了只有text或者只有image的新闻数据。

您好，请问按照您这份复现代码处理数据出来的样本数量是跟MCAN的一样的吗？