RUCAIBox / RecBole

A unified, comprehensive and efficient recommendation library
https://recbole.io/
MIT License
3.48k stars 615 forks source link

recbole自定义数据集问题 #1368

Open W-Douglas opened 2 years ago

W-Douglas commented 2 years ago

[目前的主要问题就是在使用自己制作的数据集时,报错如下 屏幕截图 2022-07-29 175120 同时,在使用官方数据集时发现每列之间的间隔不同,并且在改变间隔之后(如将三个空格删除为一个空格)报错和上图一致,所以想问一下,recbole对于数据集的间隔有没有要求,如果有具体的规定是什么,或者说有没有什么快捷的方法实现原子文件的转换。

Ethan-TZ commented 2 years ago

@W-Douglas 感谢您的关注! RecBole对数据集的间隔没有要求,结构化文件即可。用户可以在config文件中使用field_separator指定不同字段间的分隔符。 如对于.csv文件,可以设置field_separator: ",";对于.tsv文件,可以设置field_separator: "\t"。 其中默认设置为.tsv文件。对于原子文件,你只需要按格式加上字段header即可,设置参考atomic files

W-Douglas commented 2 years ago

感谢您的回复,我在相关的论文中发现,recbole项目同时还发布了一个数据的转换工具,见下图 屏幕截图 2022-07-30 104829 请问在哪里可以找到该工具。

Ethan-TZ commented 2 years ago

@W-Douglas https://github.com/RUCAIBox/RecSysDatasets

W-Douglas commented 2 years ago

好的好的,感谢您的帮助。

W-Douglas commented 2 years ago

数据集中有一列是处理好的rating,但是在使用转换工具的时候会有如下报错,显示并没有rating,想问一下接下来该怎么做才能转换成功 image

Ethan-TZ commented 2 years ago

@W-Douglas 这个问题可能你下载的数据集中没有ratings.dat文件。对于movielens数据集,请参照User Guide进行格式转换。

xiuxiuxiu6 commented 2 years ago

您好,训练好的pth模型。一般推荐模型和上下文推荐模型都可以用run-example里面的例子来得出结果吗,还是不同模型调用pth需要用不同的方法

yangyangwuwu commented 2 years ago

您好,请问您解决自己制作数据集出现ValueError: too many values to unpack (expected 2)的问题了么

[目前的主要问题就是在使用自己制作的数据集时,报错如下 屏幕截图 2022-07-29 175120 同时,在使用官方数据集时发现每列之间的间隔不同,并且在改变间隔之后(如将三个空格删除为一个空格)报错和上图一致,所以想问一下,recbole对于数据集的间隔有没有要求,如果有具体的规定是什么,或者说有没有什么快捷的方法实现原子文件的转换。

Sherry-XLL commented 1 year ago

您好 @yangyangwuwu,伯乐标准的原子文件格式的 header 需要使用 : 分开名称和段类型,例如 user_id:tokenrating:float,详情可以参考我们的文档

hdsy0430 commented 8 months ago

为什么我的item_id列明明存在,却提示我缺少那一列呢