Closed libeibei95 closed 3 years ago
您好,128维是每一个短视频在文本模态上的特征向量维度。12950是单词个数,一个短视频文本是一句话中所有word所组成的,我这里用了简单的平均值进行计算。
您好,128维是每一个短视频在文本模态上的特征向量维度。12950是单词个数,一个短视频文本是一句话中所有word所组成的,我这里用了简单的平均值进行计算。
可以理解成:首先对每个单词 基于数据集中的所有文本数据 和词向量预训练模型如 word2vec 训练出一个 128 维向量 吗?
对,用词向量去表示每个文本。
你好,Tik Tok 数据集中的文本特征数据,论文和代码中都说是128维的嵌入向量,但是我下载您提供的样例数据以及Tik Tok官方的数据https://www.biendata.xyz/competition/icmechallenge2019/data/得到的文本向量都是一个长度为 12950的列表,其中每个元素为一个词的ID。不知道是我获取数据有误,还是您在这块儿有什么特殊处理呢?
谢谢
你好,请问你怎么下载的tiktok数据集啊,现在好像下载不了了。请问能分享下特征吗。谢谢
抱歉,我被告知由于版权问题,不可以直接发布tiktok的数据集,请联系官方。谢谢。
您好,128维是每一个短视频在文本模态上的特征向量维度。12950是单词个数,一个短视频文本是一句话中所有word所组成的,我这里用了简单的平均值进行计算。
您好,在使用tiktok数据时,feat_t文件是一个[2,12950]的tensor,其中第一行每个元素是0到1650的一个数字。比如前14列为:[0, 0, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 3] 而toy dataset中num_item=1651。请问这里应该怎么处理成类似于其他两个模态的([1651, 128])大小的tensor? 上面提到的”使用简单的平均值进行计算“指的是什么操作呢?
你好,Tik Tok 数据集中的文本特征数据,论文和代码中都说是128维的嵌入向量,但是我下载您提供的样例数据以及Tik Tok官方的数据https://www.biendata.xyz/competition/icmechallenge2019/data/得到的文本向量都是一个长度为 12950的列表,其中每个元素为一个词的ID。不知道是我获取数据有误,还是您在这块儿有什么特殊处理呢?
谢谢