中国科学技术大学学报 ›› 2017, Vol. 47 ›› Issue (1): 48-56.DOI: 10.3969/j.issn.0253-2778.2017.01.007
李依霖
LI Yilin
摘要: 如何从海量微博数据中挖掘出有意义的信息,理解热点事件发生的全过程,并发现其中的拐点事件,显得越来越重要.传统的单一依靠词频的方法缺乏对子话题的抽象描述,因此存在一定的局限性.为此结合主题提取和词频统计的技术,提出了一种交互式可视分析方法,对热点事件子话题的演化过程进行不同粒度的展示;再通过比较相邻时间区间子话题词分布的变化,发现关于某些子话题的拐点事件,进而利用词项共现图在微博原文中找到具体信息.这里,用户可以在交互过程中发现最优的参数配置,从而更加有效地分析拐点事件,并理解热点事件发生的全过程.在真实的数据集上进行了实验,并与传统的基于词频的方法和基于主题变化趋势的方法做比较,结果验证了该方法的有效性.