所有作者:崔再续 郭训力
作者单位:安徽大学计算机科学与技术学院
论文摘要:随着国际互联网和企业内部互联网的飞速发展,各种电子文本数据的数量急剧增加,如何快速有效地获取、管理和使用这些文本数据,已经成为信息系统学科迫切需要解决的重要问题。基于文本内容的自动文本聚类技术作为文本信息挖掘技术中的核心技术之一,其目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能的大,而不同簇之间的相似度尽可能的小。本文以中文文本作为文本聚类的挖掘对象,对文本集进行了中文文本预处理、文本聚类。按照文中的方法步骤,设计了一个系统,实现了文本聚类的功能。
关键词: 文本预处理 tfidf 文本聚类 k-means
免费下载《基于文本内容的自动文本聚类》PDF全文(已停止下载)
本站“论文下载”文章收集整理于“中国科技论文在线”,由于各种原因,本站已暂停论文下载!请前往“中国科技论文在线http://www.paper.edu.cn/”免费下载!