yingqichao / fnd-bootstrap

56 stars 5 forks source link

GossipCop数据集处理问题 #11

Open garlic1234567 opened 1 month ago

garlic1234567 commented 1 month ago

您好,我从官网上下载下来的数据集图片都是url形式的,请问您对于这个是怎样处理的?是一个个都下载为图片再处理为csv文件吗。麻烦您给个处理的思路,谢谢!

yingqichao commented 1 month ago

我记得是这个吧,时间有点久了你再具体看看,https://github.com/yingqichao/fnd-bootstrap/blob/5d4bea2da23a88e25aa0fff674de97efdd61af25/data_preprocess/aaai_build.py#L39

里面的ban_images可管可不管,因为当时本来想做个实验评价图像本身人工能不能直接判断是不是假新闻,当时发现有几个图有点吓人就不让显示在我们设计的IDE上,后来就一直沿用了,实际上只有几个图,没什么大作用。

garlic1234567 commented 1 month ago

https://github.com/yingqichao/fnd-bootstrap/blob/5d4bea2da23a88e25aa0fff674de97efdd61af25/data_preprocess/aaai_build.py#L98 谢谢!请问这个xlsx文件是如何处理得到的。我下载下来的数据集是一个个的news content.json

yingqichao commented 1 month ago

这个直接parse就好了,估计parse的脚本没有放在这个repo里面

yingqichao commented 1 month ago

好像是这个: https://github.com/yingqichao/fnd-bootstrap/blob/5d4bea2da23a88e25aa0fff674de97efdd61af25/data_preprocess/developer.py 。 感觉上也是当时上传的时候预处理也include了。