TF-IDF算法解释,TF-IDF算法原理及公式

TF-IDF算法解释,TF-IDF算法原理及公式,摩天楼SEO工具底层算法核心TF-IDF,主要策略是增加相关词的覆盖率,以及高优布局关键词密度,获取超高分值.

SEO工具底层算法核心TF-IDF,主要策略是增加相关词的覆盖率,以及高优布局关键词密度,从而在百度谷歌等搜索引擎内容质量这一项上的排名加分,获取超高分值,下面大兵来给大家讲讲TF-IDF算法,如果你还在没有关注TF-IDF算法,那就真的会晚了。

TF-IDF算法

什么是TF-IDF算法

百度百科这样说:https://baike.baidu.com/item/tf-idf

“TF-IDF算法可以说是一种统计算法,用一个关键词评估在一篇文章或一份文件中的重要程度,关键词的重要性随着关键词出现频率的增加而增加,同时也会随着在语料库中出现的频率成反比下降,TF-IDF算法被各大搜索引擎平台所引用,也是作为评估关键词相关程度的的度量或评级依据。

TF-IDF算法

大家是不是看了上面的似懂非懂呢?其实没有一定SEO基础知识的朋友是看不懂的,下面为了大家理解,举例给大家说明。
例如有网民在搜索引擎上搜索““水果”这个名词,搜索引擎给排名前五的网站有5个,以下5条内容你觉得哪条会排在第一名呢?
– 内容1: 水果有水果,水果,水果,水果,水果
– 内容2: 水果有苹果,桃子,西瓜,菠萝,梨子
– 内容3: 蔬菜都很好吃,我最爱吃茄子了
– 内容4: 苹果,梨子都是很好吃的水果
– 内容5:好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃
其实大家一看就知道了答案,第2条和第5条是非常有希望排在第一名或者第二名的,如果按照TF-IDF算法基本也是这个结果,那么TF-IDF算法是如何计算的呢?我们接着往下看。

TF-IDF算法的计算步骤

1、计算逆文档频率

先来统计各个关键词语被包含的文章数,例如“水果”这个词就被1、2、4、5文章所引用,第4条为“水果”的逆文档频率。
通过分词后,各个关键词语的逆文档频率是:
水果=4、苹果=3、好吃=2、菠萝=2、西瓜=2、梨子=2,桃子=1、猕猴桃=1、蔬菜=1,茄子=1

TF-IDF算法逆文档计算频率

PS: IDF= log(语料库中的文件总数 / 包含词语的文件数目),为了便于理解,这里做了精简。
一篇优质的文章把逆文档频率最高的前面的关键词都包含了,说明这篇文章更有利于用户意图,搜索引擎也喜欢这样的文章,我们再看看以上的例子,”水果”和“苹果“是这个例子中最重要的2个词语,如果这篇文章中包含有“水果、苹果”,那么这篇内容质量度就会不错的。
所以我们把包含“水果、苹果”的内容拿出来,就是比较靠谱的内容了:
– 内容2: 水果有苹果,桃子,西瓜,菠萝,梨子
– 内容4: 苹果,梨子都是很好吃的水果
– 内容5: 好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃;

2、计算词频(TF)

把第1条和第3条内容删掉,余下2、4、5这几条内容,那么这几条内容要如何排序呢?一个关键词在内容中出现的频率越高,说明这个关键词对这篇文章就越重要,再次回到以上这个例子,“水果”是这篇文章的核心关键词,由于第5条内容中“水果”出现频率有两次,第2、4条内容中出现的次数只有1次,所以第5条内容就排在了第一名,排序结果如下:
– 内容5: 好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃 (第一名)
– 内容2: 水果有苹果,桃子,西瓜,菠萝,梨子(第二名)
– 内容4: 苹果,梨子都是很好吃的水果(第三名)
-内容1: 水果有水果,水果,水果,水果,水果(相关度不够,被剔除)
-内容3: 蔬菜都很好吃,我最爱吃茄子了( 相关度不够,被剔除 )
以上就是给大家精简后的TF-IDF算法,TF-IDF算法运行起来比这个要复杂的多,以上只是让大家明白TF-IDF算法其本运行原理。

TF-IDF对SEO非常重要!非常重要!非常重要!

重要的事情说三遍!
由此我们可以看出TF-IDF算法不但衡量着关键词对页面的重要性,更能衡量文章的广度相关性,对于各大搜索引擎来说,TF-IDF算法帮助搜索引擎屏幕了一大批依靠关键词密度作弊来获得排名的SEO小白,TF-IDF算法还提升了搜索质量,对于搜索引擎来说真是好处多多。
百度百科描述到:“除了TF-IDF以外,搜索引擎平台还会引用基于链接分析的评级方法,确定文件在搜索引擎排序结果中出现的先后顺序,通俗地讲就是你的网站关键词排名同由这个公式而决定的,文章得分=TF-IDF算法得分+链接得分,目前各大搜索引擎都在引用TF-IDF算法!
看到这里大家心中也许会有一个疑问,百度真的引用了TF-IDF算法吗?下面接着往下看。

首先,百度在用TFIDF算法

实证,大家可以在网上查看百度专利文档《CN102737018A-基于非线性统一权值对检索结果进行排序的方法及装置-公开》,百度搜索算法更新升级非常快,但TF-IDF算法作为搜索引擎的核心算法之一始终是没有变的。

TF-IDF算法解释

其次,GOOGLE也用TFIDF算法

全球搜索引擎google也在官方文档中承认引用了TF-IDF算法:原文链接:https://www.searchenginejournal.com/google-tf-idf/304361/

TF-IDF算法

最后,TFI-DF得分占极高比重

搜索引擎使用TF-IDF作为对网页内容评判质量的标准,那么这个占比有多大呢?如今搜索引擎是按照这个方法进行计算页面得分的:score(页面得分) = TF-IDF分 * x + 链接分 * y + 用户体验分 * z(其中x+y+z=100%;);

TF-IDF算法

2G左右谷歌搜索资料中,相关技术大咖做了相关预测,预测TF-IDF分值百度占比约为40%左右,谷歌TF-IDF分值占比约50%左右,通过做黑帽SEO的朋友介绍,TF-IDF分值的权重值百度约占有20%,谷歌目前还不清楚。
用户体验得分可以通过刷快排提高,百度占40%左右,Google无相关公示文档。
所以说在国内做SEO:排名得分=40%内容质量(TFIDF)+40%用户体验分(快排)+20%的链接分(域名+外链),TFIDF重要程度就可想而知了。

摩天楼使用了TF-IDF Plus

大兵之前拿了几个站做了下试验,都使用了TF-IDF算法的基本公式,很多关键词都没有都上首页,后来经过大咖的指点,网站使用了TF-IDF算法的升级版本BM25算法,主要是调整了文档长度、关键词权重等参数。
TF-IDF算法的升级版本BM25算法公式中的k参数排序得分基本也与谷歌搜索排序一致,而国内的百度搜索引擎由于人工干扰因素太多而无法验证,不过通过相关实例验证,K参数的取值也八九不离十。

TF-IDF算法解释

如何使用TF-IDF算法提高得分

1、写内容

确定好核心关键词,再确定几个长尾关键词,再把网站标题确定好,然后再按照网站标题写好描述内容,白帽SEO站长进行内容原创,黑帽SEO同学采集内容做拼凑…

TF-IDF算法解释

2、通过摩天楼SEO内容助手评分

利用摩天楼SEO内容助手从5个维度对你网站标题做评测,跟踪不同相关的关键词,帮你测试在同行业中你的网站得分,这些都对提升你网站排名是非常有作用的。

TF-IDF算法解释

3、重新优化内容

摩天楼SEO内容助手工具通过分析你网站后,会提示你要减少哪些关键词和要增加哪些关键词,然后你按照这些提示去做就行了,步骤过程虽然会有点枯燥无味,对已经成功了多个案例了。

TF-IDF算法解释

4、再次通过摩天楼SEO内容助手评分

SEO优化就是一个反复验证的过程,如果你的网站将TOP50左右的相关关键词都覆盖了,那么你的网站内容基本上就可以算得上是全网TOP2了,然后再调整下词频,调整到TOP10,就可以称得上是全网第一了。

TF-IDF算法解释

摩天楼真的对SEO有提升吗?

1、开发过程验证

在发表这篇文章的时候,TF-IDF算法测试已经超过一年了,然后再研究了百度、好搜、神马的相关搜索算法专利,特别是百度,也正是通过百度搜索算法专利那里得知了TF-IDF算法。
后来通过百万级数据的验证,准备了100个自然搜索词,验证相关性算法预测排名与实际排名重合度(反面交叉验证),数据基本符合预期。

2、成功案列验证

后来验证了摩天楼SEO内容助手工具确实对网站优化有效,而且相关案例也得到了验证,通过搜索引擎结果交叉验证也证明了摩天楼SEO工具不仅有效而且还很准。

3、国外TFIDF工具很流行

目前国内SEO相关培训的课程中都没有涉术TF-IDF算法的深度解析,国外的技术大牛们则已经通过了多次实验的验证,我们都知道国内的搜索引擎一直在跟国外搜索引擎着google在学,如果TF-IDF算法应用在了谷歌上,那么百度应该也使用了TF-IDF算法。

TF-IDF算法解释

国外SEO大神强推TF*IDF

国外SEO大神强推TF*IDF

最后想说的

最后想说的是摩天楼SEO内容助手工具并不是一款黑帽SEO工具,但如果配合的黑帽技术可能会得到更好的效果,其次是大部分站长的心态一直没有摆正,都想通过什么牛B技术快速将网站排名做上去,但如果你不产生优质内容,搜索引擎肯定是会给你好的排名的,如果这个搜索引擎给了你网站关键词好的排名,那么这个搜索引擎也差不多要玩完了。
因此,大兵建议同行们一定要静下心坚持,慢慢的做内容,不要总想着能一步登天。
摩天楼SEO内容助手工具目前来说还并不是一款完美的工具,但确实目前还算是一款不错的SEO工具,大家可以继续支持。

本篇文章发布于大兵SEO博客,为大兵原创内容,如若转载,请注明出处:https://www.zhuzhouren.cn/seojishu/1933.html,否则,禁止转载,谢谢配合!

Like (0)
Donate 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
Previous 2020-10-31 17:13
Next 2020-11-02 23:46

其他人还看过以下内容

发表回复

Please Login to Comment
联系我

平时工作忙:合作还是咨询SEO服务,请简明扼表明来意!谢谢!

在线咨询:点击这里给我发消息

邮件:dabingseo@qq.com
工作时间:周一至周六,10:30-24:30,节假日休息

个人微信
个人微信
SHARE
TOP