所有作者:孟美华 王宏伟
作者单位:大连理工大学电信学院自动化系
论文摘要:PDF文件格式是面向显示的,本身缺乏语义信息,如果不将其内容提取出来,就不能实现基于语义的查询。本文设计并实现了一款PDF内容提取的工具,首先对PDF文件进行了文本解析,将正文内容字符串流从源码中提取出,并对提取后的字符串流利用解密算法进行解密,然后利用Filter解码算法进行解码,最后将PDF的文本内容从解码后的字符串流中提取出。结果表明本文提出的方法不但能够非常准确的实现PDF文件格式的转换,而且可以非常方便的嵌入到搜索引擎中。
关键词: PDF文件 文件解析 解密 解码 文本提取
免费下载《PDF文件文本内容提取的设计与实现》PDF全文(已停止下载)
本站“论文下载”文章收集整理于“中国科技论文在线”,由于各种原因,本站已暂停论文下载!请前往“中国科技论文在线http://www.paper.edu.cn/”免费下载!
下一篇:基于J2EE的终端管理系统的设计