ArvinZhuang / DSI-transformers

A huggingface transformers implementation of "Transformer Memory as a Differentiable Search Index"
MIT License
155 stars 14 forks source link

关于datalloader #1

Closed zhiqiangohuo closed 2 years ago

zhiqiangohuo commented 2 years ago

您好,我仔细的看了您的代码。关于数据加载部分有个疑问(我尝试把它用到CV方向,虽然不一定会有效果。)

但是有个问题我不太明白,就是在您训练用到的dataset是从包括了question和document的,我没有看到在dataset中有针对它们的特殊处理。

他不应该是包括了一个Question和多个Document一起作为输入,来自回归question的docid吗?(根据您的代码我知道我可能理解错了) 不知道您能不能稍微教俺一下 十分感谢

ArvinZhuang commented 2 years ago

您好,感谢您的提问。

根据我的理解,模型的输入始终只有一种,要么是document,要么是query。当输入是document输出是docid的时候就是indexing的任务,当输入是query输出是docid的时候就是retrieval的任务。构造的训练集就是按一定比例把这两种任务的数据加进去。

zhiqiangohuo commented 2 years ago

我理解了。十分感谢您的答疑解惑。十分感谢