浅谈 TF-IDF 对关键词排名的影响

tf-idf

浅谈 TF-IDF 对关键词排名的影响

    TF-IDF作为谷歌搜索引擎对关键词抓紧排名的一种算法已经被使用了很多年,但是相对来说因为其较偏重于计算性,能够真正被广告谷歌SEO优化人员或者站长掌握的还是非常少。很多人甚至连听都没有听过这种关键词指标算法,有些人就算是听过也不会进行关键词的TF-IDF计算处理,更别提如何运用TF-IDF来进行外贸建站的关键词排布和填充,从而获得更好的谷歌自然搜索排名。那么今天Jack老师就和同学们一起来简单的分析并且实操讲解如何将TF-IDF运用到我们的谷歌SEO优化工作中。

一.TF-IDF的概念

TF-IDF分为两大部分内容,包括TF(术语频率)和IDF(反向文档频率).它的全称是term frequency–inverse document frequency.我们先来说说第一部分TF(term frequency),这个术语频率指的是单篇文章或者单个页面中的某个关键词占当前文章或者当前页面所有总词汇的比率。比方说有一篇写保温杯的文章,关键词为“insulated water bottle”,该关键词一共有56个,而这篇文章总的单词数量有2588个,那么这片文章中关键词“insulated water bottle”的TF值就是:56/2588=0.0216.这一部分内容很容易理解,那么我们升级一下难度,来了解一下难一点的IDF的计算和概念

IDF指的是含有该关键词的文档数量占谷歌数据库中所有文档数量百分比的倒数,将该值再次取对数就得到最终的IDF数值结果。这个数值的最终结果取决于含有该关键词的中文档数量的大小,因为它在计算公式中作为分母存在。对初等数学有点概念的同学都知道,分母越小,分子越大,这个值就越大。这意味着什么呢?含有目标关键词的该类文档在谷歌数据库总量中越少,那么我们就更容易获得排名。这就好比我们获得世界首富或者说中国首富的头衔太难,但是获得村里首富的机会还是比较容易的!

二.TF-IDF的示例演算

假设我们写了一篇关于保温杯的文章,其中有个关键词叫“保温杯的功能”,这里分中英文两种情况讨论。在很早之前谷歌对中文的关键词TF算法是单个字进行占比加权计算的,但是这里面会遇到一个很大的问题就是中文的词语连贯性。如果在以前,那么在拆分一句中文句子的时候应该是“保”、“温”、“杯”、“的”、“功”、“能”,然后再单独对这五个字的TF值进行计算。但是后面谷歌发现这样不仅连文章的核心内容无法正常判断还严重的消耗它的算法资源,于是谷歌重新调整了对中文内容的算法,首先对句子预判分割,然后再对词语进行TF权重计算,这时候就变成了“保温杯”+“的”+“功能”三个部分的TF权重值的总和。在经过一段时间之后,谷歌又发现,因为中文博大精深,很多词汇其实可以很简略的表达,所以类似“的”,“地”,“吗”等助词对核心意思的表达没有太大的帮助。但是在FT-IDF算法中,因为是按单个关键词占比整篇文章的关键词数量进行计算的,而像“的”这种助词出现的频率也比较高,严重的影响了TF-IDF算法对最终排名结果的准确性,所以谷歌在接下来的日子里又重新调整了对中文的TF-IDF算法,把这些助词的TF权重值取消了。明白了这个概念之后,同理的在英文文档中,谷歌也对应的删除了“a”、“an”、“the”等冠词的TF-IDF权重值。

1.TF的权重计算方法

JACK SEO此处内容已经被作者隐藏,请输入验证码查看内容
验证码:
请关注本站微信公众号,回复“外贸建站”,获取验证码。在微信里搜索“JACK SEO”或者“JACK 外贸建站”或者微信扫描右侧二维码都可以关注本站微信公众号。