中国科学技术大学学报 ›› 2019, Vol. 49 ›› Issue (2): 112-118.DOI: 10.3969/j.issn.0253-2778.2019.02.005
苏 浩
SU Hao
摘要: 提出一种基于MapReduce框架的商品评论热点发现并行算法——PR-HD算法. PR-HD算法使用爬虫技术提取某电商平台下某热门手机的评论数据生成评论数据集, 以TF-IDF算法来计算特征词的权重, 通过特征词添加位置权重的方式来得到特征词的最终权值, 建立向量空间模型(VSM)计算不同评论语句的相似度, 使用Canopy算法和K-means算法相结合从而实现商品评论的热点发现. 这使得产品开发人员可以从中获取更直接有效的建议和反馈.