所有作者:郭茂
作者单位:大连理工大学计算机科学与技术学院
论文摘要:本文提出了基于类中心向量的K最近邻(KNN)算法,解决了对待分类文本进行类标识时,KNN算法的执行效率受训练文本集和测试文本集规模制约的问题。从缩减训练集规模的角度出发,在训练阶段利用训练集的类中心建立初级分类器,并在分类阶段将其应用于KNN算法,实质是利用待分类文本与训练文本类中心向量距离的权值大小,以类为单位删减掉那些小于设定阈值的类中的训练文本,以此来缩小训练集规模,进而减少KNN算法中相似度的计算量,加快执行速度。实验表明本文算法可以有效地缩减训练文本数量,通过选取合适的阈值,可以使分类性能较KNN算法降低不足0。5%的情况下,时间开销节省50%左右。
关键词: 文本分类 KNN 相似度 类中心向量
免费下载《基于类中心向量的改进KNN算法》PDF全文(已停止下载)
本站“论文下载”文章收集整理于“中国科技论文在线”,由于各种原因,本站已暂停论文下载!请前往“中国科技论文在线http://www.paper.edu.cn/”免费下载!