RUCAIBox / RecBole

A unified, comprehensive and efficient recommendation library
https://recbole.io/
MIT License
3.48k stars 615 forks source link

[💡SUG] 可以将数据划分后的数据集导出成dataset/文件夹下面类型.inter格式的文件? #1321

Closed sanyu6 closed 2 years ago

Sherry-XLL commented 2 years ago

@SunYuMs 您好,RecBole 提供了参数 save_dataset (bool)save_dataloaders (bool) ,分别用于选择是否存储过滤好的数据集与划分好的数据加载器。

但是,RecBole 提供的存储功能并不能将数据划分后的数据集导出成 .inter 格式的文件,而是导出为一整个 .pth 文件。

在数据处理的过程中,函数 _remap_ID_all 会将原数据集中的外部 token 映射为内部的 ID,也就是说自带的存储功能得到的数据集是预处理之后的结果,和原始的 .inter 文件并不相同,train_data, valid_datatest_data 三个数据加载器的结果也不太直观。RecBole 目前的接口并不支持将数据集导出为三个 .inter 格式的文件,还需要使用者自行添加代码来实现。

感谢您对 RecBole 项目的关注!

sanyu6 commented 2 years ago

好的,谢谢!