中国科学技术大学学报 ›› 2019, Vol. 49 ›› Issue (7): 524-532.DOI: 10.3969/j.issn.0253-2778.2019.07.002

• 原创论文 • 上一篇    下一篇

一种基于可伸缩模式的潜在语义挖掘方法

邱 镇   

  1. 1.国网信息通信产业集团有限公司,北京 102211;2.国网(北京)节能设计研究院有限公司,北京 100052
  • 收稿日期:2018-09-26 修回日期:2018-12-04 出版日期:2019-07-31 发布日期:2019-07-31
  • 作者简介:邱镇(通信作者),男,1991年生,博士/工程师.研究领域:大数据、人工智能. E-mail: qiuzhen0208@126.com
  • 基金资助:
    国家电网科技项目(52110418002W)资助.

A novel method for mining latent events based on scalable patterns

QIU Zhen   

  1. 1. State Grid Information and Telecommunication Group Co.,Ltd, Beijing 102211, China; 2. State Grid (Beijing) Energy Conservation Design and Research Institute Co.,Ltd., Beijing 100052, China
  • Received:2018-09-26 Revised:2018-12-04 Online:2019-07-31 Published:2019-07-31

摘要: 大数据反映了人们的生活习惯、社会规律以及自然规律.数据流作为大数据最重要的表现形式之一,应用的范围非常广泛.在实际的数据流应用领域中,连续数据点组成的波段在宏观层次上展示了丰富的语义,因此以模式(波段)为粒度来表达数据流显得尤为重要.为此基于SP-tree挖掘的可伸缩模式,提出了Pattern2vec的方法,将可伸缩模式向量化,利用向量来发现数据流上潜在的隐含语义,完成分类工作.在医疗和电力数据开展实验,实验结果表明,Pattern2vec相比其他对比方法,具有更好的分类表现.

关键词: 大数据, 可伸缩模式, 向量化, 隐含语义, 分类

Abstract: Big data reflect the people's living habits, social and natural laws. Data stream, one of the most important forms of manifestation, has a wide range of applications. In the field of practical application of data stream, the waveband consisted of continuous data point can show the abundant semantics. Therefore, it’s significant to take the pattern (waveband) as the granularity and expressive form of data stream.

Key words: big data, scalable pattern, vectorization, latent semantics, classification