关于Tik Tok文本特征的疑惑

weiyinwei / MMGCN

MMGCN: Multi-modal Graph Convolution Network forPersonalized Recommendation of Micro-video

286 stars 53 forks source link

关于Tik Tok文本特征的疑惑 #19

Closed libeibei95 closed 3 years ago

libeibei95 commented 3 years ago

你好，Tik Tok 数据集中的文本特征数据，论文和代码中都说是128维的嵌入向量，但是我下载您提供的样例数据以及Tik Tok官方的数据https://www.biendata.xyz/competition/icmechallenge2019/data/得到的文本向量都是一个长度为 12950的列表，其中每个元素为一个词的ID。不知道是我获取数据有误，还是您在这块儿有什么特殊处理呢？

谢谢

weiyinwei commented 3 years ago

您好，128维是每一个短视频在文本模态上的特征向量维度。12950是单词个数，一个短视频文本是一句话中所有word所组成的，我这里用了简单的平均值进行计算。

libeibei95 commented 3 years ago

您好，128维是每一个短视频在文本模态上的特征向量维度。12950是单词个数，一个短视频文本是一句话中所有word所组成的，我这里用了简单的平均值进行计算。

可以理解成：首先对每个单词基于数据集中的所有文本数据和词向量预训练模型如 word2vec 训练出一个 128 维向量吗？

weiyinwei commented 3 years ago

对，用词向量去表示每个文本。

weichentangming commented 3 years ago

你好，Tik Tok 数据集中的文本特征数据，论文和代码中都说是128维的嵌入向量，但是我下载您提供的样例数据以及Tik Tok官方的数据https://www.biendata.xyz/competition/icmechallenge2019/data/得到的文本向量都是一个长度为 12950的列表，其中每个元素为一个词的ID。不知道是我获取数据有误，还是您在这块儿有什么特殊处理呢？

谢谢

你好，请问你怎么下载的tiktok数据集啊，现在好像下载不了了。请问能分享下特征吗。谢谢

weiyinwei commented 3 years ago

抱歉，我被告知由于版权问题，不可以直接发布tiktok的数据集，请联系官方。谢谢。

feiyuchen7 commented 3 years ago

您好，128维是每一个短视频在文本模态上的特征向量维度。12950是单词个数，一个短视频文本是一句话中所有word所组成的，我这里用了简单的平均值进行计算。

您好，在使用tiktok数据时，feat_t文件是一个[2,12950]的tensor，其中第一行每个元素是0到1650的一个数字。比如前14列为：[0, 0, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3] 而toy dataset中num_item=1651。请问这里应该怎么处理成类似于其他两个模态的（[1651, 128]）大小的tensor？上面提到的”使用简单的平均值进行计算“指的是什么操作呢？