RECENT 最新发表
- 昆明网站建设技术研发中心将 说一说在网站建设时如何正确 搜索引擎指数对网站优化的作 从哪些方面着手来降低客户离 网站内容布局做好了才会有良 响应式网页设计拥有哪些特点 看看哪些因素会影响网站关键 盘点那些“非法”的网站优化 哪些网站优化手段是作弊的?是 对于深度链接能够为网站带来 我们在做网站的友情链接时有 比较常见的网站推广策略主要 如何擦亮眼睛选择靠谱的网站 发现网站权重下降后如何及时 导致网站排名起伏不定的因素
LOVE 猜你也喜欢
如何阻止垃圾蜘蛛的抓取
如何阻止垃圾蜘蛛的抓取
大家是不是认为通过site语法查询,没有看见页面被收录,该页面就是没有被百度收录(以百度为例),那这个页面是不是就真的没有收录呢?你看到的网页快照时间是不是就是开始展示的时间额?比如快照时间是2013-10-7,是不是7号那天你就能查到这个页面被收录了呢,答案是否定的,一般都是7号之后,你才能发现你的网站是7号被抓取保存的快照。
要搞清楚网页快照与实际网页内容存在时间差,首先你要了解搜索引擎的工作原理,知道蜘蛛究竟是怎么在工作的,就能彻底揭开你心中的几个困惑了,比如网页快照时间为什么总是滞后于展现时间,上面提到的7号之后才能看到7号的快照?又比如,为什么网站之前的收录一直都是10几个页面,突然间一天暴增到几十上百的收录,这时候你难免会惊慌,这样的收录变化属于正常现象吗?下面昆明网站建设都为大家一一解释。
搜索引擎的工作原理,可以分为4个阶段:
第一个是抓取,蜘蛛爬行到你的网站页面,对页面进行抓取,将网页内容下载到网页数据库,如果你的网站存在一些死链,那么蜘蛛将无法顺利完成该页面的抓取;
第二个阶段是过滤,搜索引擎会通过算法对蜘蛛采集回来的内容进行过滤,去重,删除一些低质量的网页内容,经过筛选的网页内容,才能顺利进入到下一阶段;
第三个阶段是建立索引,对于这些筛选合格的页面内容进行分词建立索引,什么是分词呢?简单说就是划分句子;
第四阶段是输出结果,这个输出结果就是百度结合算法,匹配用户的搜索结果展现出网页内容。
这四个阶段是层级关系,所以上面提到的2013-10-7就是搜索引擎索引建立的时间,具体你什么时候看到,那是百度让它展现出来的那个时间点,所以很多时候,你突然间发现网站收录增加了不少,你查看快照时间,都是早于你现在查看时间的;有时候你发现你网站的快照不更新,很多情况下都是在搜索引擎过滤低质量页面或者重复页面的时候过滤掉了,这时候你就应该考虑检查你的页面质量和更新内容了。