百度搜索引擎工作原理浅析
之所以要写百度搜索引擎优化的相关内容主要是那天听了某位同学的话比较有感触,她说的第一句是“蚊子再小也是块肉”,第二句话是“它山之石可以攻玉”!Jack老师的这个教程网站一开始的初衷是讲外贸建站和谷歌SEO优化,但考虑到国内的同学们的产品供应链上下游都集中在国内,所以就想到了来讲一讲中文内容社区最大的搜索引擎—百度的相关SEO优化内容。
虽然我也一直在不断吐槽百度的各种糟点,但不可否认的是百度是当下而且在往后相当长的一段时间内都会担当起中文内容搜索领英的龙头老大,这不仅仅是它本身因素决定的,更多的是整个搜索生态环境和特定的高层战略意识形态所决定的!有时候吐槽百度,可能并不是因为它不够好,而是用过谷歌等更好的搜索引擎之后,对比之下才发现,百度搜索引擎要走的路还很长。这就好比是你去大城市尝过大厨的手艺之后会回家说母亲烧的家常菜不香,但事实上家常菜才是最养胃的!言归正传,我们来讲百度搜索引擎的基本原理和工作流程。
一.百度搜索引擎工作原理
我们首先引用百度对其自身工作原理的官方描述:
互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做 “spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、Sogou Web Spider 等。
上面这段话,简单的概括就是说,百度派出了蜘蛛通过超链接的形式抓取新内容!这句话看起来很简单,但是背后却包含了包括链接存储系统、链接选取系统、dns 解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统等多个环境并发交互运作的一个整体过程。也就是说百度本身并不生产内容而是做内容的搬运工(咦,怎么和农夫山泉大自然的搬运工套路这么相似?!类似的还有马云的淘宝,王兴的美团…有钱人的脑子思考模式都差不多的吗?)
需要注意的是互联网上的很多信息都是不太健康的,所以百度搜索引擎在抓取和处理这些内容的时候就会开始引入一系列处理机制,接下来我们就看看有哪些处理机制会影响百度蜘蛛对内容的抓取
1.内容抓取过程不能影响内容本身
我们知道不管是人还是搜索引擎的蜘蛛在访问某一个页面的时候都需要消耗一定的该网站带宽,这里你可以将访问该网站的路径理解成一条公路,小网站一般是双车道,正常情况下车辆通行无阻,如果蜘蛛频繁的访问该网站,等于说路上的车变多了,那就会造成道路堵塞进而影响网站的正常访问。当然了你也可以在自己网站的robots.txt文件中写入相应的代码,以控制搜索引擎的抓取频次间隔。
2.对内容抓取的结果反馈代码
相信很多同学对404这个数字不会太陌生,这个404就是表示该抓取的内容页面url下没有找到任何信息,也就是说抓取蜘蛛吃了个闭门羹,这自然会引起蜘蛛的不爽,所以会在索引库中删除该页面的url。甚至可能在短期内再次发现这条url也不一定会去爬取内容。(这和追女孩子差不多,约会的时候如果男孩子敢飞鸽子就要有做好单身的打算,这是多么痛的领悟!!!)除了404之外,我们可能还遇到过301,403,503等错误代码,除了200是ok的,其他都是多多少少有问题,这些代码反馈可以在自己网站的站长中心能够看到,希望及时进行更改。
3.不同网站区别对待,网站也有三六九等之分
人人平等这句话用在网站上是不适用的!百度搜索引擎也是看人下菜,对于高质量,快速访问且更新频率很快的网站,它去爬取的次数和频率就比普通网站要高的多。这其中会涉及到深度优先遍历策略、宽度优先遍历策略、pr 优先策略、反链策略、社会化分享指导策略等等。每个策略各有优劣,在实际情况中往往是多种策略结合使用以达到最优的抓取效果。这些策略看起来很高深,但落实到相关的网页内容中,可以简单形象的概括为网站内容要深刻具体,内容要新鲜不要老生常谈,此外用外链的形式形成其他站点对自己站点的信任和权重支持。
4.新生孤立内容的提交与发现
很多时候站长们只注重自身网站的优化而不去做外部的资源引导,这就会造成一种现象叫做“内容孤岛”。也就是说该网站没有任何外界的链接引入导致百度抓取蜘蛛并不知道你这个网站的存在,从而不会将该网站内容编辑入它的内容索引库中,这样即使你的网站内容做的再优秀,也不可能获得关键词的自然搜索排名,别人也不知道你的网站存在。为了解决这种“内容孤岛”,建议各站长通过百度平台站长中心进行内容提交,或者用其他相关工具进行内容提交,主动告诉谷歌蜘蛛,大爷,我这有好货,来逛逛吧,包你喜欢!
5.对于抓取规则作弊的相关处罚
但凡有规则就会有作弊的存在,自古如此!为了尽可能的让大部分网站内容抓取获得相应的平衡性,百度也做出了很多的对应策略来进行保证。这样就保证了并不是某个页面url提交的频率越高,该页面被抓取和获得排名的机会就越大。很多文不对题或者页面质量低下的网站,百度都会对其站点内容的抓取过程进行限制。有使用过百度站长中心的同学都知道,一开始每天的站点url链接提交数量只有10条的配额,今天的配额用完之后就需要到第二天才能进行下一次的资源提交。但是如果百度认为你的页面质量内容都非常不错,他会对你有待,提升你每日的内容提交配额,这等于变相的鼓励你做更好的内容,当然这个配额不是提升之后就不会变动,如果你自己作死,那么配额还是会下降到每天10条的初始状态!
二.百度搜索引擎抓取内容异常的相关原因