嗯,这是昆明网站建设技术研发中心官网,架构符合国际W3C标准
服务热线:0871-63535511 | 招募优秀网站前端设计师,高酬

如何阻止垃圾蜘蛛的抓取

如何阻止垃圾蜘蛛的抓取

site判断网站收录

大家是不是认为通过site语法查询,没有看见页面被收录,该页面就是没有被百度收录(以百度为例),那这个页面是不是就真的没有收录呢?你看到的网页快照时间是不是就是开始展示的时间额?比如快照时间是2013-10-7,是不是7号那天你就能查到这个页面被收录了呢,答案是否定的,一般都是7号之后,你才能发现你的网站是7号被抓取保存的快照。

要搞清楚网页快照与实际网页内容存在时间差,首先你要了解搜索引擎的工作原理,知道蜘蛛究竟是怎么在工作的,就能彻底揭开你心中的几个困惑了,比如网页快照时间为什么总是滞后于展现时间,上面提到的7号之后才能看到7号的快照?又比如,为什么网站之前的收录一直都是10几个页面,突然间一天暴增到几十上百的收录,这时候你难免会惊慌,这样的收录变化属于正常现象吗?下面昆明网站建设都为大家一一解释。

搜索引擎的工作原理,可以分为4个阶段:

第一个是抓取,蜘蛛爬行到你的网站页面,对页面进行抓取,将网页内容下载到网页数据库,如果你的网站存在一些死链,那么蜘蛛将无法顺利完成该页面的抓取;

第二个阶段是过滤,搜索引擎会通过算法对蜘蛛采集回来的内容进行过滤,去重,删除一些低质量的网页内容,经过筛选的网页内容,才能顺利进入到下一阶段;

第三个阶段是建立索引,对于这些筛选合格的页面内容进行分词建立索引,什么是分词呢?简单说就是划分句子;

第四阶段是输出结果,这个输出结果就是百度结合算法,匹配用户的搜索结果展现出网页内容。

这四个阶段是层级关系,所以上面提到的2013-10-7就是搜索引擎索引建立的时间,具体你什么时候看到,那是百度让它展现出来的那个时间点,所以很多时候,你突然间发现网站收录增加了不少,你查看快照时间,都是早于你现在查看时间的;有时候你发现你网站的快照不更新,很多情况下都是在搜索引擎过滤低质量页面或者重复页面的时候过滤掉了,这时候你就应该考虑检查你的页面质量和更新内容了。

 

POST TIME:2013年10月24日
 
×

网站价格咨询0871-63535511

首选移动咨询方式15368242187网站建设李

备用咨询电话15925207101

QQ咨询方式381068446 李工

您也可以将联系方式给到我们,由我们电话回拨给您
点击这里给我
发消息
云南盈岚科技有限公司_全国十佳E-Business咨询顾问机构