Alibaba-NLP / Multi-CPR

[SIGIR 2022] Multi-CPR: A Multi Domain Chinese Dataset for Passage Retrieval
170 stars 18 forks source link

关于数据采集的疑问 #8

Open yifannir opened 1 year ago

yifannir commented 1 year ago

您好,请问一下观察数据发现在标签数据对中,一个query下只会挂载一个doc,对于电商数据来说,如果是曝光日志数据采集得到的标签数据的话,有两个疑问还请咨询一下。

  1. 使用一个query下挂载一个相关doc的标注形式的原因是什么,为何不是一个query下挂载多个doc呢?
  2. 这样采集数据的方式是什么,对于query是保存历史一段时间如30天的query,对于其挂载的唯一doc是这些query对应的点击频次最高的doc物料么?