Topic Detection and Tracking
基本思路参考CIKM‘08的paper:Automatic Online News Topic Ranking Using Media Focus and User Attention Based on Aging Theory
算法核心包括:LDA,VSM,Aging Theory,TF-IDF(with burstiness),中文分词
算法分为两步:
第一步:训练历史数据语料库,得到大部分词语的“历史文档频率”
第二步:在测试数据集上运行TDT算法,实时发现热点话题
在本地实验里,以凤凰网2013年10月的新闻数据集作为训练集,2013年12月的新闻数据集作为测试集
其中2013年12月的热点话题如下(仅限于凤凰网数据集):
中国东海防空识别区
中国嫦娥三号探月卫星
泰国政局动荡
英国首相卡梅伦访华
乌克兰出现政治危机
北京“老外扶人遭讹”不实
华东地区雾霾严重
重庆女孩电梯内摔打男婴
南非前总统曼德拉去世
朝鲜张成泽被处决
中央经济工作会议
人社部回应“延迟退休”
2014年放假安排出炉
中美军舰南海对峙
安倍政府出台三大防卫文件
南京“和平烛光祭”悼念大屠杀30万遇难同胞
中共高层纪念毛泽东诞辰120周年
山东出现“夺命快递”
多地婴儿因“夺命乙肝疫苗”死亡
人大自主招生暂停
行政诉讼法拟修改
南苏丹种族屠杀
单独二胎立法审议
安倍参拜靖国神社
中国劳教制度被正式废除
四川泸州商城连环爆炸
俄火车站遭“黑寡妇”恐怖袭击
习近平庆丰包子铺排队买包子