您當前的位置:首頁 > 文化

TF-IDF的演算法原理及公式

作者:由 羽西SEO 發表于 文化時間:2021-08-04

SEO工具底層演算法核心TF-IDF,主要策略是增加相關詞的覆蓋率,以及高效最佳化佈局關鍵詞密度,從而在百度谷歌等搜尋引擎內容質量這一項上的排名加分,獲取較高分值,下面予希來給大家講講TF-IDF演算法。

TF-IDF的演算法原理及公式

什麼是TF-IDF演算法

百度百科這樣說:

https://

baike。baidu。com/item/tf

-idf

“TF-IDF演算法可以說是一種統計算法,用一個關鍵詞評估在一篇文章或一份檔案中的重要程度,關鍵詞的重要性隨著關鍵詞出現頻率的增加而增加,同時也會隨著在語料庫中出現的頻率成反比下降,TF-IDF演算法被各大搜索引擎平臺所引用,也是作為評估關鍵詞相關程度的的度量或評級依據。

TF-IDF的演算法原理及公式

大家是不是看了上面的似懂非懂呢?其實沒有一定SEO基礎知識的朋友是看不懂的,下面為了大家理解,舉例給大家說明。

例如有網民在搜尋引擎上搜索““水果”這個名詞,搜尋引擎給排名前五的網站有5個,以下5條內容你覺得哪條會排在第一名呢?

– 內容1: 水果有水果,水果,水果,水果,水果

– 內容2: 水果有蘋果,桃子,西瓜,菠蘿,梨子

– 內容3: 蔬菜都很好吃,我最愛吃茄子了

– 內容4: 蘋果,梨子都是很好吃的水果

– 內容5:好吃的水果有西瓜,蘋果,葡萄,其他水果還有菠蘿,獼猴桃

其實大家一看就知道了答案,第2條和第5條是非常有希望排在第一名或者第二名的,如果按照TF-IDF演算法基本也是這個結果,那麼TF-IDF演算法是如何計算的呢?我們接著往下看。

TF-IDF演算法的計算步驟

1、計算逆文件頻率

先來統計各個關鍵詞語被包含的文章數,例如“水果”這個詞就被1、2、4、5文章所引用,第4條為“水果”的逆文件頻率。

透過分詞後,各個關鍵詞語的逆文件頻率是:

水果=4、蘋果=3、好吃=2、菠蘿=2、西瓜=2、梨子=2,桃子=1、獼猴桃=1、蔬菜=1,茄子=1

TF-IDF的演算法原理及公式

PS: IDF= log(語料庫中的檔案總數 / 包含詞語的檔案數目),為了便於理解,這裡做了精簡。

一篇優質的文章把逆文件頻率最高的前面的關鍵詞都包含了,說明這篇文章更有利於使用者意圖,搜尋引擎也喜歡這樣的文章,我們再看看以上的例子,”水果”和“蘋果“是這個例子中最重要的2個詞語,如果這篇文章中包含有“水果、蘋果”,那麼這篇內容質量度就會不錯的。

所以我們把包含“水果、蘋果”的內容拿出來,就是比較靠譜的內容了:

– 內容2: 水果有蘋果,桃子,西瓜,菠蘿,梨子

– 內容4: 蘋果,梨子都是很好吃的水果

– 內容5: 好吃的水果有西瓜,蘋果,葡萄,其他水果還有菠蘿,獼猴桃;

2、計算詞頻(TF)

把第1條和第3條內容刪掉,餘下2、4、5這幾條內容,那麼這幾條內容要如何排序呢?一個關鍵詞在內容中出現的頻率越高,說明這個關鍵詞對這篇文章就越重要,再次回到以上這個例子,“水果”是這篇文章的核心關鍵詞,由於第5條內容中“水果”出現頻率有兩次,第2、4條內容中出現的次數只有1次,所以第5條內容就排在了第一名,排序結果如下:

– 內容5: 好吃的水果有西瓜,蘋果,葡萄,其他水果還有菠蘿,獼猴桃 (第一名)

– 內容2: 水果有蘋果,桃子,西瓜,菠蘿,梨子(第二名)

– 內容4: 蘋果,梨子都是很好吃的水果(第三名)

-內容1: 水果有水果,水果,水果,水果,水果(相關度不夠,被剔除)

-內容3: 蔬菜都很好吃,我最愛吃茄子了( 相關度不夠,被剔除 )

以上就是給大家精簡後的TF-IDF演算法,TF-IDF演算法執行起來比這個要複雜的多,以上只是讓大家明白TF-IDF演算法其本執行原理。

TF-IDF對SEO非常重要!非常重要!非常重要!

重要的事情說三遍!

由此我們可以看出TF-IDF演算法不但衡量著關鍵詞對頁面的重要性,更能衡量文章的廣度相關性,對於各大搜索引擎來說,TF-IDF演算法幫助搜尋引擎螢幕了一大批依靠關鍵詞密度作弊來獲得排名的SEO小白,TF-IDF演算法還提升了搜尋質量,對於搜尋引擎來說真是好處多多。

百度百科描述到:“除了TF-IDF以外,搜尋引擎平臺還會引用基於連結分析的評級方法,確定檔案在搜尋引擎排序結果中出現的先後順序,通俗地講就是你的網站關鍵詞排名同由這個公式而決定的,文章得分=TF-IDF演算法得分+連結得分,目前各大搜索引擎都在引用TF-IDF演算法!

看到這裡大家心中也許會有一個疑問,百度真的引用了TF-IDF演算法嗎?下面接著往下看。

首先,百度在用TFIDF演算法

實證,大家可以在網上檢視百度專利文件《CN102737018A-基於非線性統一權值對檢索結果進行排序的方法及裝置-公開》,百度搜索演算法更新升級非常快,但TF-IDF演算法作為搜尋引擎的核心演算法之一始終是沒有變的。

TF-IDF的演算法原理及公式

其次,GOOGLE也用TFIDF演算法

全球搜尋引擎google也在官方文件中承認引用了TF-IDF演算法:原文連結:

https://www。

searchenginejournal。com

/google-tf-idf/304361/

TF-IDF的演算法原理及公式

最後,TFI-DF得分佔極高比重

搜尋引擎使用TF-IDF作為對網頁內容評判質量的標準,那麼這個佔比有多大呢?如今搜尋引擎是按照這個方法進行計算頁面得分的:score(頁面得分) = TF-IDF分 * x + 連結分 * y + 使用者體驗分 * z(其中x+y+z=100%;);

TF-IDF的演算法原理及公式

2G左右谷歌搜尋資料中,相關技術大咖做了相關預測,預測TF-IDF分值百度佔比約為40%左右,谷歌TF-IDF分值佔比約50%左右,透過做黑帽SEO的朋友介紹,TF-IDF分值的權重值百度約佔有20%,谷歌目前還不清楚。

使用者體驗得分可以透過刷快排提高,百度佔40%左右,Google無相關公示文件。

所以說在國內做SEO:排名得分=40%內容質量(TFIDF)+40%使用者體驗分(快排)+20%的連結分(域名+外鏈),TFIDF重要程度就可想而知了。

摩天樓使用了TF-IDF Plus

大兵之前拿了幾個站做了下試驗,都使用了TF-IDF演算法的基本公式,很多關鍵詞都沒有都上首頁,後來經過大咖的指點,網站使用了TF-IDF演算法的升級版本BM25演算法,主要是調整了文件長度、關鍵詞權重等引數。

TF-IDF演算法的升級版本BM25演算法公式中的k引數排序得分基本也與谷歌搜尋排序一致,而國內的百度搜索引擎由於人工干擾因素太多而無法驗證,不過透過相關例項驗證,K引數的取值也八九不離十。

TF-IDF的演算法原理及公式

如何使用TF-IDF演算法提高得分

1、寫內容

確定好核心關鍵詞,再確定幾個長尾關鍵詞,再把網站標題確定好,然後再按照網站標題寫好描述內容,白帽SEO站長進行內容原創,黑帽SEO同學採集內容做拼湊…

TF-IDF的演算法原理及公式

2、透過摩天樓SEO內容助手評分

利用摩天樓SEO內容助手從5個維度對你網站標題做評測,跟蹤不同相關的關鍵詞,幫你測試在同行業中你的網站得分,這些都對提升你網站排名是非常有作用的。

TF-IDF的演算法原理及公式

3、重新最佳化內容

摩天樓SEO內容助手工具透過分析你網站後,會提示你要減少哪些關鍵詞和要增加哪些關鍵詞,然後你按照這些提示去做就行了,步驟過程雖然會有點枯燥無味,對已經成功了多個案例了。

TF-IDF的演算法原理及公式

4、再次透過摩天樓SEO內容助手評分

SEO最佳化就是一個反覆驗證的過程,如果你的網站將TOP50左右的相關關鍵詞都覆蓋了,那麼你的網站內容基本上就可以算得上是全網TOP2了,然後再調整下詞頻,調整到TOP10,就可以稱得上是全網第一了。

TF-IDF的演算法原理及公式

摩天樓真的對SEO有提升嗎?

1、開發過程驗證

在發表這篇文章的時候,TF-IDF演算法測試已經超過一年了,然後再研究了百度、好搜、神馬的相關搜尋演算法專利,特別是百度,也正是透過百度搜索演算法專利那裡得知了TF-IDF演算法。

後來透過百萬級資料的驗證,準備了100個自然搜尋詞,驗證相關性演算法預測排名與實際排名重合度(反面交叉驗證),資料基本符合預期。

2、成功案列驗證

後來驗證了摩天樓SEO內容助手工具確實對網站最佳化有效,而且相關案例也得到了驗證,透過搜尋引擎結果交叉驗證也證明了摩天樓SEO工具不僅有效而且還很準。

3、國外TFIDF工具很流行

目前國內SEO相關培訓的課程中都沒有涉術TF-IDF演算法的深度解析,國外的技術大牛們則已經通過了多次實驗的驗證,我們都知道國內的搜尋引擎一直在跟國外搜尋引擎著google在學,如果TF-IDF演算法應用在了谷歌上,那麼百度應該也使用了TF-IDF演算法。

TF-IDF的演算法原理及公式

國外SEO大神強推TF*IDF

TF-IDF的演算法原理及公式

摩天樓SEO內容助手工具目前來說還並不是一款完美的工具,但相對目前來說算是一款還不錯的SEO工具。

最後,予希建議同行們一定要沉下心來做內容,不要浮躁,踏實的走好每一步路,一步一個腳印,不要好高騖遠,想著一步登天。

第一次看我文章的小夥伴可以關注我的公眾號:愛學seo,瞭解更加全面的SEO知識。

標簽: tf  IDF  演算法  SEO  水果