1. 首页
  2. 业界动态
  3. 新媒体

搜索引擎知识 网页查重技术

济南网站优化
济南网站优化

对于搜索引擎来说,重复的网络内容是非常有害的。重复网页的存在意味着搜索引擎必须再次处理这些网页。更有害的是,在索引过程中,搜索引擎可能在索引数据库中索引两个相同的网页。当有人查询时,重复的网络链接将出现在搜索结果中。因此,无论从搜索体验还是系统效率的质量来看,这些繁重的网页都是有害的。济南网站优化今天来谈谈这个问题!

网页复制检查技术源于复制检测技术,即判断一个文件内容是否被剽窃并复制另一个或多个文件的技术。

1993年,亚利桑那大学的曼伯(谷歌现任副总裁兼工程师)推出了一个sif工具来查找类似的文档。1995年,布林(谷歌创始人之一谢尔盖·布林)和斯坦福大学的加西亚-莫利纳在“数字图书视图”项目[·谢尔盖·布林等人1995年首次提出了一个版权保护系统和相应的算法。此后,这种检测重复技术被应用于搜索引擎。基本的核心技术是相似的。

网页不同于简单的文档。网页的特殊属性用内容和格式来标记。因此,内容和格式上的相同相似性构成了四种相似类型的网页。

1.这两页的内容格式完全相同。

2.这两页的内容相同,但格式不同。

3.两个页面部分的内容相同,格式相同。

4.这两个页面部分很重要,但格式不同。

实施方法:

对于网页的重复检查,首先将网页组织成具有标题和文本的文档,以便于重复检查。因此,网页复制检查也被称为“文档复制检查”。“文档重复检查”通常分为三个步骤。首先,特征提取。第二,相似度的计算和评价。三、消除重。

1.特征抽出

当我们判断相似的物体时,我们通常可以将它们与相同的特征进行比较。文档复制检查的第一步是特征提取。换句话说,文档内容由组成文档的几个特征集分解和表示。这一步是计算相似度,以便以后进行特征比较。

有许多特征提取方法。我们主要讨论两种经典的算法,“一匹配算法”和“瓦片算法”。

“匹配算法”(I-Match algorithm)不依赖于完整的信息分析,而是使用数据集的统计特征来提取文档的主要特征,并丢弃非主要特征。

“瓦片算法”通过提取多个特征词并比较两个特征集的相似性来实现文档重复检查。

2.相似度计算和评估

特征提取完成后,需要进行特征比较,因为网页重复检查的第二步是相似度计算和评估。

匹配算法只有一个特征。当输入文档时,根据单词的IDF值过滤掉一些关键特征(逆文档频率缩写为IDF)。也就是说,文章中频率特别高和频率特别低的词往往不能反映文章的本质。因此,从文档中移除高频和低频单词,并计算文档的唯一散列值(散列简单地意味着将数据值映射到地址。以数据值为输入,计算后即可得到地址值。),具有相同哈希值的那些文档是重复的。

瓦片算法提取多个特征进行比较,因此处理起来更加复杂。比较方法的瓦片数量完全相同。然后除以两个文档的瓦片区总数,减去一致的瓦片区数量。用这种方法计算的值是“雅克卡系数”,它可以判断集合的相似性。Jaccard系数通过集合的交集除以集合的并集来计算。

3.减肥

为了删除重复内容,搜索引擎考虑了许多包含的因素,因此它使用最简单和最实用的方法。爬虫爬行的第一页也在很大程度上确保了原始页面将首先被保留。

网页的重复检查在系统中是必不可少的,重复的网页会被删除,所以搜索引擎的其他链接也会减少很多不必要的麻烦,节省索引存储空间,降低查询成本,提高页面排序计算效率。方便搜索引擎用户。

发表评论

邮箱地址不会被公开。 必填项已用*标注