CastellanZhang / lambdaFM

Multi-thread implementation of lambdaFM with FTRL for ranking problem. LambdaFM is a learning-to-rank algorithm by combining LambdaRank and Factorization Machines.
MIT License
111 stars 31 forks source link

"相同qid的数据必须相邻在一起,且按照自然展现的顺序排列"这句话如何理解? #9

Open AllenShow opened 5 years ago

AllenShow commented 5 years ago

大神,您好,请问按照自然展现的顺序排列是什么意思?是不是只要满足相同qid的数据相邻,相同qid的多条数据内部展现顺序随机就行?

AllenShow commented 5 years ago

另外 如果用mr处理数据,多个文件可能很难保证相同qid数据一定相邻啊,请问大神这么要求的用意是?

CastellanZhang commented 5 years ago

相同qid的数据相邻,自然展现顺序就是按照线上给用户展现的doc排列顺序。随机也可以,效果怎么样就得做实验对比了。 这么做是算法计算的要求,需要构造pairwise的样本对。 学习一下spark,同qid数据相邻不是什么难事。