yingqichao / fnd-bootstrap

52 stars 5 forks source link

请问具体要怎么处理数据集呢 #1

Closed zhangmingdao closed 2 months ago

zhangmingdao commented 1 year ago

比如我有了weibo21的原始数据集,用您提供的代码里的哪些文件来处理呢

yingqichao commented 1 year ago

weibo21提供的是json格式,首先你需要根据里面每一条数据的url下载对应图像,其次把json保存成excel方便/data里面提供的Dataset类进行读取,相关代码在/data_preprocess的Weibo21_downloader.pyweibo_build.py里。对于另外两个数据集也是类似操作,只不过不需要根据url爬取图像了。

YuxiaoDuan commented 1 year ago

请问weibo21的数据集中url对应的图像无法访问怎么办呢?

YuxiaoDuan commented 1 year ago

请问您的gossip_train_no_filt.xlsx是如何得到的呢?

yingqichao commented 1 year ago

请问您的gossip_train_no_filt.xlsx是如何得到的呢?

参阅/data_preprocess下面对Gossipcop数据集的预处理,将图像地址、文本和标签存在excel里,no_filt表示训练集不做过滤(过滤是因为训练集很多条目很雷同且文本不够长)

请问weibo21的数据集中url对应的图像无法访问怎么办呢?

我下载的时候也遇到很多失效的url,直接跳过就好了

后续我会上传我下载得到的Weibo21,以及原作者发给我的weibo和gossip数据集

XWJ110826 commented 1 year ago

我想请问一下data_preprocess里的weibo_build里的variables.py里的 rumor_root = 'E:/rumor_dataset/rumor_datasets/images/All images/和 mixset_xlsx = "./dataset/rumor_dataset/all_images.xlsx"是自己建嘛?如果是自己建,表格的格式是什么样的呢? 因为您分享的数据集链接里weibo数据集是能下载的,但是没有这两个文件

YuxiaoDuan commented 1 year ago

请问您的data_preprocess的aaai_build中的ban_image文件是放了什么文件呢?目前我是自己建了空文件夹ban_image,训练结果并不理想。希望能得到您的解答。

yingqichao commented 1 year ago

请问您的data_preprocess的aaai_build中的ban_image文件是放了什么文件呢?目前我是自己建了空文件夹ban_image,训练结果并不理想。希望能得到您的解答。

请查收ban_images文件夹。主要是截图和令人不适的图像。在训练的时候把这些照片除掉,因为网络基本上没有能力对类似微信截图这种图像里面的文字进行识别。

链接:https://pan.baidu.com/s/1Zw3j7BhspziZVAPSsueXRw 提取码:aaai

yingqichao commented 1 year ago

mixset_xlsx

你好,这两个是我本来想在论文里提出的一个新爬的数据集,取名MixSet,对应文件夹叫rumor_dataset,后来因为发现和weibo21数据集有高度重合就作废了。这两个是没有用到的。

XWJ110826 commented 1 year ago

你好,./dataset/{dataset_name}/origin_do_not_modify/train_datasets_Weibo21.xlsx和./dataset/{dataset_name}/origin_do_not_modify/test_datasets_Weibo21.xlsx 是自己建的空白的表格嘛?

XWJ110826 commented 1 year ago

你好,我想问一下data_preprocess那个文件是对gossipcop数据集进行处理的?没看到有文件是读取gossipcop文件夹的

YuxiaoDuan commented 1 year ago

您好,目前我遇到这样的问题:UAMFD.py文件中collate_fn_english函数中的image_aug=[i[0][2] for i in data],在gossip数据集中,image_aug为int型数值0/1组成的列表,而不是tensor组成的列表,问题出在image_aug=torch.stack(image_aug)这一函数只能处理tensor而不是int型数据,所以请问您的image_aug是int型0/1数值吗? 我尝试采用image_aug=[torch.tensor(i[0][2]) for i in data]解决该问题,代码能够顺利运行但是效果并不理想,请问您遇到这样的问题了吗?

yingqichao commented 1 year ago

你好,我想问一下data_preprocess那个文件是对gossipcop数据集进行处理的?没看到有文件是读取gossipcop文件夹的

请问你aaai_build.py这个文件看过了吗

yingqichao commented 1 year ago

二位,我最近有科研和横向项目需要做,没有很多精力来一一解答问题,如果代码写的不够清晰给你们研究造成了麻烦给你们抱歉了,等一两个月后有时间了我会再来系统清洗一遍代码。另外上面问到的关于collate_fn_english的问题,这个问题我看上去很陌生,没有遇到这样的问题,所以请您再仔细看一下是哪个环节出了问题。

YuxiaoDuan commented 1 year ago

感谢您的解答!

xingyue-333 commented 8 months ago

请问您的data_preprocess的aaai_build中的ban_image文件是放了什么文件呢?目前我是自己建了空文件夹ban_image,训练结果并不理想。希望能得到您的解答。

请查收ban_images文件夹。主要是截图和令人不适的图像。在训练的时候把这些照片除掉,因为网络基本上没有能力对类似微信截图这种图像里面的文字进行识别。

链接:https://pan.baidu.com/s/1Zw3j7BhspziZVAPSsueXRw 提取码:aaai

能否麻烦您再提供一下这些文件,上述链接目前已失效,联系方式:2624647704@qq.com

Liu-arch commented 2 months ago

请问您的data_preprocess的aaai_build中的ban_image文件是放了什么文件呢?目前我是自己建了空文件夹ban_image,训练结果并不理想。希望能得到您的解答。

请查收ban_images文件夹。主要是截图和令人不适的图像。在训练的时候把这些照片除掉,因为网络基本上没有能力对类似微信截图这种图像里面的文字进行识别。 链接:https://pan.baidu.com/s/1Zw3j7BhspziZVAPSsueXRw 提取码:aaai

能否麻烦您再提供一下这些文件,上述链接目前已失效,联系方式:2624647704@qq.com

您好,请问您是否获取到这个ban_images文件了呢?