首页 > 搜索引擎技术 > 网页快照的基本原理

网页快照的基本原理

发表评论 评论:3 作者:墨明棋妙 发布时间:2010-10-18 20:38:15

    昨天介绍了下网页快照是什么,而之后有些未完结的内容,在此一并的说下网站快照的一些基本原理。网页快照的建立和网页被收录是不能混为一谈的,其中有很多区别的原理性东西。
    搜索引擎首先通过地址索引库或者链接关系爬行到网站,之后将网站上的内容“下载”到搜索引擎自身的硬盘,这个过程叫做“收录”,这个收录与平时我们所说的网页收录是不一样的,我们平时总将网页快照数量当做网页收录数,而实质上那只能称为网页索引。
    网页快照,也即网页索引,到底该怎么理解呢?
    在搜索引擎对网页内容收录之后,再到呈现给用户查询,需要有一个审核机制,滤除一些垃圾内容,滤除一些重复内容,通过一些机制防止作弊,等等,这些过程为了保证搜索引擎呈现给用户的网页体验是最优化的,所以,难免有非常多的内容被收录,但是未建立索引。
    在 网页快照是什么  这篇文章中,我提到了网页已经收录但没有建立网页快照的情况,具体有哪些情况呢?
    1.新站。为了提高spam的作弊成本,从而杜绝spam及其他相关问题,对于新站,搜索引擎往往收录了但是没有建立索引。
    2.对于高重复性的页面,搜索引擎可能对其收录了但是不建立索引。
    3.对于被惩罚的站点,许多内容都在搜索引擎的服务器中但是没有建立索引。
    而网页已经有快照,但是没有收录的原因是什么呢?
通常会有如下情况:
    1.百度搜索开放平台:众所周知,这个平台是查看不到快照的,搜索引擎不一定对原网页进行了索引,即使进行了索引,百度显示的标题和描述的内容,和收录中的是尽不相同的。
    2.自身利用robots.txt设置对搜索引擎进行了屏蔽的,但是有网站外链对其进行了指向,搜索引擎会对其进行索引但是并没有收录内容,只是一个快照形式。
    关于百度快照的基本原理就介绍到这里了,了解百度快照,百度索引机制,对SEO的理解思路会更加清晰,而这也是SEO原理化的必要方法。

深圳SEO:www.seo-mmqm.com

文章作者:墨明棋妙
本文地址:http://www.seo-mmqm.com/baidu-kuaizhao-jiben-yuanli/
版权所有 © 转载时必须以链接形式注明作者和原始出处!

3 条评论 “网页快照的基本原理”

  1. #1 1 回复 Post:2011-3-25 9:32:28

    百度快照个人觉得是反映蜘蛛的友好程度的一个重要标准!

  2. #2 2 回复 Post:2011-3-25 10:25:22

    围观中!了解一部分!

  3. #3 3 回复 Post:2011-8-15 22:47:11

    说的不错,百度快照更能体现百度对你网站的重视程度我认为。
    欢迎博主回访哦,
    由 墨明棋妙 于 2011-8-18 11:24:18 最后编辑

发表评论