百度百科是这样说的:
“TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。”
文章链接:https://baike.baidu.com/item/tf-idf
举一个简单易懂的案例。
假如说我们在百度上搜索“水果”这个词,百度爬虫抓取的网站内容有下面5个,你觉得哪个内容排名第一?
- 内容1: 水果有水果,水果,水果,水果,水果
- 内容2: 水果有苹果,桃子,西瓜,菠萝,梨子
- 内容3: 蔬菜都很好吃,我最爱吃茄子了
- 内容4: 苹果,梨子都是很好吃的水果
- 内容5:好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃
相信很多人心里面有了答案,大家凭直觉,内容2 跟 内容5 应该排名靠前,内容5很可能是第1,内容2是排名第2。
其实按照TF-IDF算法也能得出这个结论,那么TF-IDF是怎么做的,请大家跟上我的步伐。
我们先统计各个词语被包含的文章数。比如“水果”被4篇文章(内容1、2、4、5)引用,4就是“水果”的逆文档频率。
分词后,各个单词的逆文档频率如下:
水果=4、苹果=3、好吃=2、菠萝=2、西瓜=2、梨子=2,桃子=1、猕猴桃=1、蔬菜=1,茄子=1
PS: IDF= log(语料库中的文件总数 / 包含词语 t 的文件数目),为了便于理解,这里做了精简。
按照我们的直觉,如果一篇文章把逆文档频率最高的前面的词都包含了,说明这篇文章内容更贴合用户意图,更受到搜索引擎喜欢。回到例子,"水果、苹果"是本例中重要性最高的2个词,如果内容中包含“水果、苹果”,那么这篇内容质量就越好。
所以把包含“水果、苹果”的内容拿出来,就是比较靠谱的内容了:
- 内容2: 水果有苹果,桃子,西瓜,菠萝,梨子
- 内容4: 苹果,梨子都是很好吃的水果
- 内容5: 好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃
我们把内容1、内容3砍掉了,剩下的内容2、内容4、内容5怎么排序。我们想一下,一个词语在内容中出现的次数越高,也说明这个词语对这篇文章更重要。回到本例,“水果”是我们的核心词,那么因为内容5中出现“水果”两次,内容2、内容4次数是1,那么内容5胜出。最后的排序结果如下
- 内容5: 好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃 (第一名)
- 内容2: 水果有苹果,桃子,西瓜,菠萝,梨子(第二名)
- 内容4: 苹果,梨子都是很好吃的水果(第三名)
-内容1: 水果有水果,水果,水果,水果,水果(相关度不够,被剔除)
-内容3: 蔬菜都很好吃,我最爱吃茄子了( 相关度不够,被剔除 )
重要的事情说三遍!
我们可以看到,TFIDF算法,不仅可以衡量关键词对页面的重要性,更能衡量文章的广度相关性。对于百度、360、google来说,TFIDF算法的出现屏蔽了一大批用关键词密度来获取排名的SEO小白,同时提升了搜索质量啊,真是一箭双雕。
百度百科里面说了:“除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。”。意思是什么?你排名可以由下面的公式决定。文章得分=TFIDF得分+链接得分,百度搜索引擎在用TFIDF!!
百度专利中使用TFIDF的实锤,请查看百度专利文档《CN102737018A-基于非线性统一权值对检索结果进行排序的方法及装置-公开》。搜索算法来去匆匆,百度算法更新迭代也非常快,但是TFIDF算法有点不同,它是目前最核心的搜索算法之一。
google承认在搜索中使用的TFIDF算法:原文链接:https://www.searchenginejournal.com/google-tf-idf/304361/
如果搜索引擎确定使用TF-IDF对网页内容作为评判质量的因子,那么这个比重有多大?现在的搜索引擎一般用如下的算法计算网站页面得分:score(页面得分) = TFIDF分 * x + 链接分 * y + 用户体验分 * z(其中x+y+z=100%;);
排名得分=40%的内容质量(TFIDF)+40%的用户体验分(快排)+20%的链接分(域名+外链),TFIDF重要程度不言而喻。
上一条:新网站如何做百度收录
下一条:没有啦! |