tkdsheep / TDT

Topic Detection and Tracking
20 stars 11 forks source link

TDT

Topic Detection and Tracking

基本思路参考CIKM‘08的paper:Automatic Online News Topic Ranking Using Media Focus and User Attention Based on Aging Theory

算法核心包括:LDA,VSM,Aging Theory,TF-IDF(with burstiness),中文分词

算法分为两步:

第一步:训练历史数据语料库,得到大部分词语的“历史文档频率”

第二步:在测试数据集上运行TDT算法,实时发现热点话题

在本地实验里,以凤凰网2013年10月的新闻数据集作为训练集,2013年12月的新闻数据集作为测试集

其中2013年12月的热点话题如下(仅限于凤凰网数据集):

中国东海防空识别区

中国嫦娥三号探月卫星

泰国政局动荡

英国首相卡梅伦访华

乌克兰出现政治危机

北京“老外扶人遭讹”不实

华东地区雾霾严重

重庆女孩电梯内摔打男婴

南非前总统曼德拉去世

朝鲜张成泽被处决

中央经济工作会议

人社部回应“延迟退休”

2014年放假安排出炉

中美军舰南海对峙

安倍政府出台三大防卫文件

南京“和平烛光祭”悼念大屠杀30万遇难同胞

中共高层纪念毛泽东诞辰120周年

山东出现“夺命快递”

多地婴儿因“夺命乙肝疫苗”死亡

人大自主招生暂停

行政诉讼法拟修改

南苏丹种族屠杀

单独二胎立法审议

安倍参拜靖国神社

中国劳教制度被正式废除

四川泸州商城连环爆炸

俄火车站遭“黑寡妇”恐怖袭击

习近平庆丰包子铺排队买包子