谷歌搜索与大数据模型

谷歌搜索与大数据模型

谷歌搜索与大数据模型

    这是一篇2011年的原创文章,作者当然不是我,而是老爷子比尔.斯劳斯基。虽然这是一篇十年前的文章,当对于当下我们投身于研究和提高谷歌SEO优化技能水平的同学们来说,还是有着非常重要的学习意义。老爷子写这篇文章的初衷是因为谷歌更新了熊猫算法(Panda),随着 Panda 算法的更新,我Google 引入了一种对大规模数据集(如 Web)中的信息进行建模的方法,以尝试识别和预测网页的特征,这些特征不仅可以根据相关性和流行度(基于指向这些页面的链接),但也基于一系列其他特征,例如可信度、信任值、原创性、主题的覆盖范围、可用性等多重因素。

很显然,谷歌不可能将这些辨识特征杂乱无序的散布,否则就无法根据搜索用户的搜索需求来匹配较为精准的搜索内容结果,这样的结果显然是谷歌不愿意看到的。所以谷歌启用了三元组专利技术,该技术最初在03年提交,在07年获得授权,在此后的日子里,一直被谷歌所沿用和改造,并逐渐成为了如今谷歌千人前面的重要内容构成算法专利之一。

那么,什么是三元组专利?它的公式是这样的Z=(u,q,d),这其中

u代表的是搜索用户本身的数据

q代表的是搜索用户的查询数据

d代表的是查询数据返回的页面相关的文档信息

这样子说可能有点不是特别清楚,我在下面列举一些实例项目:

  • 用户所在的国家/地区,这属于u的数据范畴
  • 用户提供查询 q 的时间,这属于u的数据范畴
  • 用户所在国家的语言,这属于u的数据范畴
  • 查询语言 q,这属于q的数据范畴
  • 查询 q 的确切字符串,这属于q的数据范畴
  • 查询 q 中的单词,这属于q的数据范畴
  • 查询 q 中的单词数,这属于q的数据范畴
  • 文档 中的每个单词,这属于d的数据范畴
  • 文档 的统一资源定位符 (URL) 中的每个词,这属于d的数据范畴
  • 文档 的 URL 中的顶级域,这属于d的数据范畴
  • 文档  的 URL 的每个前缀,这属于d的数据范畴
  • 文件 标题中的每个词,这属于d的数据范畴
  • 链接中指向文档 的每个单词,这属于d的数据范畴
  • 查询 q 中的单词与文档 d 中的单词匹配的次数,
  • 用户 u 先前访问文档 d 的次数,

很明显,上面所列举的三元组内容实例和实际的搜索引擎工作机制还相差个十万八千里,光头佬Brian Dean曾经写过一篇文章,罗列了影响谷歌SEO优化排名的200多个因素,但实际上可能还远远不止。这个庞大的三元组数据库可能会收集超过500万个不同的特征。这句话体现在了三元组特征的专利说明文档中。你要是不信,没关系,点击下面的专利链接进行查询

《基于大型数据集的排名文档》

既然这个模型是为了更好的为搜索引擎用户提供精准的搜索结果,那么它的功能显然不仅仅局限在搜集上述三元组的相关特征上。因为特征数据收集的再多,不进行利用还是等于无效数据。因此,收集的查询数据可能包括用户先前提供的用于查找特定页面的搜索词,用户数据可能包括互联网协议地址、cookie 信息、查询语言和/或与用户相关的地理信息,文档信息可能包括有关在搜索结果中呈现给用户的特定页面的数据,以及这些文档在被选择或经过时所处的位置。

当该模型经过运算之后自然的就给出了相关的自然搜索排名结果内容,注意,这时候整个运算机制还没有结束,因为搜索用户对当前内容的选择和点击查看与否,也会直接关联到下一次的内容推荐模型中。也就是说该大数据模型从来不会孤立存在,只要你从使用谷歌浏览器那一刻开始,你的所有细微操作都会对后续结果产生影响,哪怕你使用的是无痕浏览模式也不例外。

那么这篇文章对我们的谷歌SEO优化有什么意义呢?

第一点:摆脱关键词的迷信思想

关键词对网站页面排名固然重要,但绝不可能在三元组模型产生极其重要的本质性影响。相关搜索用户的特征数据收集,以及用户对谷歌搜索引擎给出的自然排名结果操作(点击、查看和浏览时间)都直接影响后续SERP的排名结果。举个很简单的例子,当我们使用中文搜索关键词“面包”,基本上不太可能出现以阿拉伯文“ الخبز . ”的对应结果。这就是三元组中u系列因素的效果。而当我们使用“bread”搜索英语的结果,该模型也不会紧盯着这一个变量因素,它会去搜集统计数据库中的其他参数,可能是关键词Bread baking,可能是名为Delicious bread的一张面包图片,甚至是搜索相关文档中的地理信息,因为搜索引擎判断你搜索“bread”这个关键词的时候,可能是肚子饿了,想找个就近的面包店买点面包充饥,那么在搜索结果中就可能出现一个谷歌地图,上面标注着离你最近的面包店。所以在以后的谷歌SEO优化过程中,尽量将关键词从神坛上拉下来吧,它并没有我们想象的那么神秘。

第二点:考虑更多的搜索用户相关因素

在三元组模型中,最重要的不是q和d,而是u,也就是说搜索用户本身的相关因素在某种程度上更加能够影响搜索结果的呈现。很多时候我们在执行具体的谷歌优化过程中,过于将精力集中在内容输出上,而忘记了文章的本身是为了面向用户群体。你觉得一篇文章很优秀,那是因为你觉得它优秀,但似乎很多时候你的潜在用户群体并不这么认为。这也是为什么很多人觉得自己文章写的质量很好,但是网站却没有流量和排名的根本原因。从而就放弃了输出原创内容,转而去做外链或者其他一些黑帽手法的工作。比方说阿拉伯文的阅读方式是从右到左,但我们绝大部分人的书写习惯是从做到右,如果你的客户是阿拉伯地区的,那么这种阅读习惯上的差异,就很可能导致他们的页面体验度极差,你的网站页面排名也就很难起来了。

好了,以上就是本章关于 谷歌搜索与大数据模型 的全部内容,如果还有不理解的地方,没关系,解决方案如下:

点击此处,查看更多外贸建站和谷歌SEO优化免费教程

QQ:3233269705

QQ群:645296397

微信公众号:JACK SEO

微信公众号二维码