Open mitao-cat opened 2 months ago
作者您好,请问一下您的google drive中的.index(item编码文件)是怎么得到的?我尝试按论文实验setting部分和本仓库结构复现物品编码,经过了如下步骤:
amazon_text_emb.py
plm_checkpoint
huggyllama/llama-7B
dataset.emb-llama-td.npy
run.sh
best_loss_model.pth
best_collision_model.pth
generate_indices.py
dataset.index
上述步骤如无特殊说明均使用默认参数。这样生成的物品编码分布和您提供的编码分布有差距,并且最终推荐效果有下降。想请教一下上面的步骤哪里需要修改,才能得到和google drive中相似的码本?十分感谢!!!
@mitao-cat 您好! 我们在实验中并没有严格使用best_loss_model.pth或者best_collision_model.pth,而是综合loss和collision在最后的几个ckpt中选择一个进行索引生成。另外,目前的RQ-VAE实现相比于最初版本进行了一些改变,如训练时使用lr_scheduler,因此获得的码本确实无法于google drive中完全一样。
作者您好,请问一下您的google drive中的.index(item编码文件)是怎么得到的?我尝试按论文实验setting部分和本仓库结构复现物品编码,经过了如下步骤:
amazon_text_emb.py
的115行的plm_checkpoint
设为huggingface的huggyllama/llama-7B
并运行,生成dataset.emb-llama-td.npy
run.sh
,生成RQ-VAE的ckpt(包含best_loss_model.pth
和best_collision_model.pth
)generate_indices.py
的line45设置为best_loss_model.pth
然后运行,生成dataset.index
上述步骤如无特殊说明均使用默认参数。这样生成的物品编码分布和您提供的编码分布有差距,并且最终推荐效果有下降。想请教一下上面的步骤哪里需要修改,才能得到和google drive中相似的码本?十分感谢!!!