中国科学技术大学学报 ›› 2017, Vol. 47 ›› Issue (4): 290-296.DOI: 10.3969/j.issn.0253-2778.2017.04.002

• 论著 • 上一篇    下一篇

基于结构和文本特征的网页分类技术研究

顾敏,郭庆,曹野,朱峰,顾彦慧,周俊生,曲维光,   

  1. 1.南京师范大学计算机科学与技术学院,江苏南京 210023; 2.福建省信息处理与智能控制重点实验室,闽江学院,福建福州 350121
  • 收稿日期:2016-03-01 修回日期:2016-09-17 出版日期:2017-04-30 发布日期:2017-04-30
  • 通讯作者: 顾彦慧
  • 作者简介:顾敏,女,1993年生,硕士生.研究方向:自然语言处理. E-mail:15205150477@163.com
  • 基金资助:
    国家自然科学基金(61472191),江苏省高等学校自然科学基金(15KJA420001),留学回国人员科研启动基金(教外司留[2015]1098号),福建省信息处理与智能控制重点实验室(闽江学院)开放基金(MJUKF201705),山东省语言资源开发与应用重点实验室开放课题(211180A41601),江苏省普通高校研究生科研创新计划(KYLX16_1293)资助.

Research on web page automatic categorization based on structural and text information

GU Min, GUO Qing, CAO Ye, ZHU Feng, GU Yanhui, ZHOU Junsheng, QU Weiguang,   

  1. 1. School of Computer Science and Technology, Nanjing Normal University, Nanjing 210023, China;
    2. Fujian Province Key Laboratory of Information Processing and Intelligence Control, Minjiang University, Fuzhou 350121, China
  • Received:2016-03-01 Revised:2016-09-17 Online:2017-04-30 Published:2017-04-30

摘要: Web网页中含有丰富的信息资源,通过网页分类可以更好地对其内容进行抽取和管理,方便用户阅读.针对网页复杂的结构信息和丰富的文本内容,提出了一种基于网页文本和结构的网页分类方法,利用众创相关网页的结构特点和文本信息,选择联合特征和原子特征相结合的方法进行分类.实验表明,这种方法有一定的可行性,且比单一使用文本信息进行分类的方法具有更高的正确率和召回率.

关键词: 网页分类, 朴素贝叶斯, 原子特征, 联合特征

Abstract: Since web pages contain abundant information resources, a better extraction and management of the information can be achieved through web page categorization. Considering the complex structure and abundant text information, a method was proposed for web page categorization based on the structure and text. The method of combining joint features and atomic features was employed to classify the web pages. The experiment result shows that the proposed method is feasible to some extent and has a higher precision and recall rate than using text information only.

Key words: web page classification, nave Bayes, atomic feature, joint feature

中图分类号: