RUCAIBox / RecBole

A unified, comprehensive and efficient recommendation library
https://recbole.io/
MIT License
3.27k stars 590 forks source link

Bole能否实现归纳场景下的数据集分割? #1987

Open ithok opened 5 months ago

ithok commented 5 months ago

您好,我的需求是根据根据用户和项目维度来划分数据集。 这里存在一个归纳场景,即模型测试时出现训练时未出现的交互或用户/项目。前者我认为是可以在bole框架内实现的,但后者似乎没法做到。 更具体来说,假设我有1000个用户,1000个项目,我希望训练集中的交互能够仅是前900个用户或者前900个项目上的交互,而测试集上可以包括最后100个用户上的交互,要实现我这样的需求,在bole框架预设的内容内部有操作的方式吗?如果没有,这样的自定义需求可以在哪里实现呢? 期待您的回复!

TayTroye commented 4 months ago

@ithok 你好! 这样的自定义需要可以通过重写split_by_ratio实现https://github.com/RUCAIBox/RecBole/blob/de6690e0a358629ccf96afdfd17e8e7c9c973440/recbole/data/dataset/dataset.py#L1623