所有作者:许南山 齐皓爽
作者单位:北京化工大学信息科学与技术学院
论文摘要:文章介绍了适用于化工专业搜索引擎的中文分词系统中的分词词典的结构的设计,采用基于字符串匹配的分词方法,结合化工专业词汇的构词特点,提出一种基于TRIE索引树的改进结构,以达到提高分词结果准确率的目标。首字散列表由汉字内码哈希得到首字的位置,沿着指针可查询其他字;分词算法是根据索引树的结构设计的搜索查询算法,沿着指针链搜索匹配字符。由词典建立和文件扫描方向的不同,可以进行正向匹配和逆向匹配验证分词结果。通过对系统进行的分词速度测试和分词精度测试的测试结果进行分析,证明本系统达到了预期目标,满足化工专业搜索引擎的分词需要,可以为化工领域提供更好的服务。
关键词: 分词词典 匹配 化工词汇 TRIE索引树
免费下载《识别化工专业词汇的中文分词词典结构的设计》PDF全文(已停止下载)
本站“论文下载”文章收集整理于“中国科技论文在线”,由于各种原因,本站已暂停论文下载!请前往“中国科技论文在线http://www.paper.edu.cn/”免费下载!