weiyinwei / MMGCN

MMGCN: Multi-modal Graph Convolution Network forPersonalized Recommendation of Micro-video
286 stars 53 forks source link

关于Tik Tok文本特征的疑惑 #19

Closed libeibei95 closed 3 years ago

libeibei95 commented 3 years ago

你好,Tik Tok 数据集中的文本特征数据,论文和代码中都说是128维的嵌入向量,但是我下载您提供的样例数据以及Tik Tok官方的数据https://www.biendata.xyz/competition/icmechallenge2019/data/得到的文本向量都是一个长度为 12950的列表,其中每个元素为一个词的ID。不知道是我获取数据有误,还是您在这块儿有什么特殊处理呢?

谢谢

weiyinwei commented 3 years ago

您好,128维是每一个短视频在文本模态上的特征向量维度。12950是单词个数,一个短视频文本是一句话中所有word所组成的,我这里用了简单的平均值进行计算。

libeibei95 commented 3 years ago

您好,128维是每一个短视频在文本模态上的特征向量维度。12950是单词个数,一个短视频文本是一句话中所有word所组成的,我这里用了简单的平均值进行计算。

可以理解成:首先对每个单词 基于数据集中的所有文本数据 和词向量预训练模型如 word2vec 训练出一个 128 维向量 吗?

weiyinwei commented 3 years ago

对,用词向量去表示每个文本。

weichentangming commented 3 years ago

你好,Tik Tok 数据集中的文本特征数据,论文和代码中都说是128维的嵌入向量,但是我下载您提供的样例数据以及Tik Tok官方的数据https://www.biendata.xyz/competition/icmechallenge2019/data/得到的文本向量都是一个长度为 12950的列表,其中每个元素为一个词的ID。不知道是我获取数据有误,还是您在这块儿有什么特殊处理呢?

谢谢

你好,请问你怎么下载的tiktok数据集啊,现在好像下载不了了。请问能分享下特征吗。谢谢

weiyinwei commented 3 years ago

抱歉,我被告知由于版权问题,不可以直接发布tiktok的数据集,请联系官方。谢谢。

feiyuchen7 commented 3 years ago

您好,128维是每一个短视频在文本模态上的特征向量维度。12950是单词个数,一个短视频文本是一句话中所有word所组成的,我这里用了简单的平均值进行计算。

您好,在使用tiktok数据时,feat_t文件是一个[2,12950]的tensor,其中第一行每个元素是0到1650的一个数字。比如前14列为:[0, 0, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3] 而toy dataset中num_item=1651。请问这里应该怎么处理成类似于其他两个模态的([1651, 128])大小的tensor? 上面提到的”使用简单的平均值进行计算“指的是什么操作呢?