所有作者:黄仁 冯胜 杨吉云 刘宇 敖民
作者单位:重庆大学计算机学院
论文摘要:爬虫搜集的重复网页不仅浪费了存储和带宽资源,而且增加了用户的浏览负担。针对网页重复的特点和网页正文的结构特征,提出了一种动态的、层次的、鲁棒性强的网页去重算法。该方法通过将网页正文表示成正文结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。特征提取利用长句提取算法保证了强鲁棒性。实验证明,该方法对镜像网页和近似镜像网页都能进行准确的检测。
关键词: 网页去重 正文结构树 长句提取 层次指纹
免费下载《基于正文结构和长句提取的网页去重算法》PDF全文(已停止下载)
本站“论文下载”文章收集整理于“中国科技论文在线”,由于各种原因,本站已暂停论文下载!请前往“中国科技论文在线http://www.paper.edu.cn/”免费下载!