thunlp / Chinese_Rumor_Dataset

中文谣言数据
687 stars 137 forks source link

关于rumor-repost non-rumor-repost下的json字段问题 #6

Closed srtianxia closed 5 years ago

srtianxia commented 5 years ago

你好! 非常棒的工作,我想问下,关于non-rumor-repost/rumor-repost 两个文件夹下的 kids,parent,mid 这三个字段的值该如何理解呢?

谢谢!

srtianxia commented 5 years ago

引用自作者回复的邮件

通常情况下每条微博的URL都是这样的形式: http://weibo.com/2480531040/z8ElgBLeQ,其中三个部 分,分别是微博域名,博主的用户ID(uid)和一个字符串。第三部分的字符串就是您提到的mid,是由每条微博的唯一标识id转换得到的。所以可以认为mid是每条微博(包括评论)的唯一标识。 kids和parent包含的是评论的层级关系,形式也是mid。例如一条微博原文下的某条评论mid是 z8ElgBLeQ,另一个用户回复了该条评论(回复评论的mid是kboVqy),则z8ElgBLeQ的kids中会包含 kboVqy,kboVqy的parent是z8ElgBLeQ