当前位置:主页 > 刷百度指数 > /正文

搜索引擎收录网页的四个阶段

作者:风力刷百度指数 ???时间:2018-07-21 11:31

第一阶段:大小通吃

搜索引擎网页的抓取主要采取的是大小通吃的策略,简单的说就是把网页中所能发现的链接逐一添加到待抓取的URL中,然后机械性的将新抓取的URL从网页中提取出来,虽然这种方式较为古老,但是其效果还是很好的,而这也是蜘蛛访问后,没有收录的原因。

第二阶段:网页评级

Pagerank是目前比?#29616;?#21517;的一种链接分析算法,可以用来衡量网页的重要性,并且非常自然,而站长们?#21152;胮agerank的思路来对URL进行排序,这也就是大家所热衷的发外链,据了解,中国的发外链市场每年大概有上亿元的规模。爬虫的目的是?#30053;?#32593;页,但是pagerank却是个全?#20013;?#30340;算法,只有当所有网页?#30053;?#23436;成,那么所计算的结果才会是最可靠的。对于中小网站来说,如果服务器的质量不好,在进行抓取时,就只能看到部分内容,那么在抓取阶段是无法获得可靠的pagerank得分。

第三阶段:OCIP策略

OCIP策略可以说是更像pagerank算法的改进,在算法开始前,每个网页都会给予相同的“现金”,每当我们对某个页面A进行?#30053;?#21518;,A就会将自己的“现金”平均?#25351;?#39029;面中所包含的链接页面,从而清空自己的“现今”,而这也是导出链接越来越少,权重越来越高的原因之一。

对于待抓取的页面,它会根据自己手头拥有的“现金”多少来进行排序,优先?#30053;?ldquo;现金”充足的页面,OCIP的思路还是大致和pagerank是一样的,都适合于实时计算,而很多网页出现秒收的情况也很有可能就是因为这个。

第四阶段:大站优先策略

大站都是走的优先策略,多以网站为单位来衡量一个网页的重要性,对于待抓取的URL队列中的网页,会根据所述来进行网站分类,例如:哪个网站等待?#30053;?#30340;页面最多,就对其优先?#30053;亍?#30001;于大型网站一般包含的页面更多,也大多都是名站,其网页质量相对也比较高,所以它的?#23616;?#24605;想还是倾向于优先?#30053;?#22823;型网站URL。

总结:虽然这个算法相对比较简单粗暴,但是其收录高质量网页的效果却很好,而这也是为什么很多网站内容被转载后,大站却能把你挤下来的原因之一。

本文地址:http://www.wqbxm.club/bdzs/617.html

上一篇:刷西瓜视频播放量
下一篇:如何刷新浪博客访问量

相关推荐
Tags:
刷指数

最新文章



刷百度指数 联系我们
  • 咨询电话:18927460947
  • 客服QQ:208777028

  • 扫一扫关注我们的微信号

    刷百度指数二维码
    ? 吉祥8游戏
    时时彩稳赚不赔绝招 极速快3 福彩3d计划群8197771 福建新快3开奖结果 贴吧文赚钱吗 北单比分直播最新 老时时彩 大乐透预测专家 今天贵州快三走势图 球探网即时赔率 2013时时彩稳赚技巧 搞乐队怎么赚钱 吉林快三 安卓软件开发基础班 符文工房3 宠物赚钱 河北时时开奖