摘 要:网页查重技术是浏览获取有用信息的关键技术,传统的查重方法中,选取关 键 词在网页中出现的频率来判断网页是否重复,如果关 键 词相近,可能造成查重误判的情况.本文提出网页本身特有的指纹技术,设计新的查重算法,通过与网页特征库中的指纹比较,完成网页的查重工作,提高查重的准确率.
Abstract:Webpagefingerprintcheckingisakeytechnologytoscanandgetusefulinformation.Thetraditionalmethodofwebpageduplicatedetectionselectsthefrequencyofoccurrenceofkeywordsasthestandardtoverifywhetherit’sduplicate,thesimilarkeywordaymisleadtheduplicatedetection.Thispaperproposedtheuniquewebpagefingerprinttechnology,designednewdetectionalgorithm.Comparingwithwebpagefeatureoffingerprint,thepaperpletesthewebpagerepeat-checkingworkandimprovestheaccuracyofduplicatedetection.
关 键 词:网页指纹;网页查重;位置向量
Keywords:webpagefingerprint;webpageduplicatedetection;positionvector
中图分类号:TP393.0文献标识码:A文章编号:1006-4311(2014)15-0225-02
0引言
当今世界处于互联网信息时代,网络和信息技术得到飞速提升,互联网上的信息呈现几何级爆炸式的增长,给用户带来了大量有用信息,也带出了一些问题.用户浏览不同网站目的是查找需要的信息,实际情况是大量信息在各网页间