利用TF-IDF解釋“SEO診斷”排名現象

來源:互聯網
上載者:User

  TF-IDF演算法已經被很多專業的SEO工作者所熟知,它是一種用於資訊檢索與資訊探勘的常用加權技術,運用到網頁分析中就是對於網頁中的相關關鍵詞進行加權,分析眾多網頁中某個特定關鍵詞的相關網頁關鍵詞權值,並在最後的排序演算法中給予科學的依據。

  首先看一看TF*IDF公式:TF*IDF值 = TF×IDF(TF乘以IDF) = 1+log TF(t,d) ×IDF(t) = 1+log TF(t,d) ×log(N / DF(t))。為什麼要分析這個公式呢?因為一個網頁的TF-IDF值越大,網頁中常值內容與索引詞越相關,其能夠在搜尋引擎上獲得的權值就越高,對於後期的網頁的排序能夠提供很大的支援。

  TF*IDF中TF詞頻(Term Frequency),表示詞條在某個文檔中出現的頻率,而IDF反文檔頻率(Inverse Document Frequency)表示如果包含詞條t的文檔個數越少,IDF越大,則說明詞條t具有很好的類別區分能力,用公式表示IDF可以寫為:IDF(t) = log(N / DF(t))。DF(t)表示包含有某個搜尋字詞(以t為代表)的文檔數,N表示互連網的總網頁數。

  看這些概念很難理解透徹,給大家舉一個例子,大家就能夠很好地明白了。

  

 

  利用TF-IDF解釋“SEO診斷”排名現象

        例如“SEO診斷”這個關鍵詞的網頁排序,我們查排名前十中三個網站關於這個詞相關詞語的一些詞頻展現分析:

  排在第二的是A5的SEO診斷,他們的“SEO”和“診斷”的詞頻分別是41和46,“SEO診斷”的詞頻是20;

  排在第三的網站是長沙的一家公司,他們的“SEO”和“診斷”的詞頻分別是12和4,“SEO診斷”的詞頻是1;

  我的細嗅薔薇部落格排名排名第十,網站中“SEO”詞頻最高,達到84,“診斷”的詞頻是7,“SEO診斷”的詞頻是4。

  搜尋查看有關於“SEO診斷”的頁面約1,530,000個,“SEO”和“診斷”是百度上限約100,000,000個,取N=10000億。所以三個網頁三個關鍵詞的TF*IDF值做下面的計算:

  1、先計算三個詞的IDF值:

  SEO:IDF= log(N / DF(t))= log(10000/1)=4

  診斷:IDF= log(N / DF(t))= log(10000/1)=4

  SEO診斷:IDF= log(N / DF(t))= log(10000/0.015)= 7-log15≈6

  2、計算三個詞的TF值:

  三站的關鍵詞SEO的TF值:

  長沙:TF= log(TF(t,d))= log12≈1.1

  A5:TF= log(TF(t,d))= log41≈1.64

  細嗅薔薇:TF= log(TF(t,d))= log84≈1.92

  三站的關鍵詞診斷的TF值:

  長沙:TF= log(TF(t,d))= log4≈0.63

  A5:TF= log(TF(t,d))= log46≈1.68

  細嗅薔薇:TF= log(TF(t,d))= log7≈0.84

  三站的關鍵詞SEO診斷的TF值:

  長沙:TF= log(TF(t,d))= log1=0

  A5:TF= log(TF(t,d))= log20≈1.45

  細嗅薔薇:TF= log(TF(t,d))= log4≈0.63

  3、三個站三個詞的TF*IDF值為:

  從上面的表格中我們可以清晰的看出,我的部落格“SEO”的TF*IDF值最高,A5站長網的“診斷”和“SEO診斷”TF*IDF值最高。

  如果單純從TF*IDF值計算出來的相關性來講,“SEO診斷”這個詞的排名A5站長網的相關性是最高的,應該獲得更好的排名,我的部落格排名應該在兩者之間(前天的排名的確在兩者之間),長沙站應該在最後,但是和實際的結果看來是有一定的差距的。這說明網站網頁排名的因素還有其他的一些比較重要的因素,例如網站整體權重,單個網頁權重和品質,外部連結,和使用者的互動(即使用者體驗),這些都是我們需要考慮的。

  另外,同一個網站相比較來看TF*IDF值,長沙站和我的細嗅薔薇部落格要提升排名,對於關鍵詞“SEO”排名的要求就比較高,“SEO”排名起決定性作用,而A5站長站中“SEO診斷”的排名起到決定性的作用,關鍵詞“SEO”排名對於其排名波動影響要小。這一點有一定的根據,例如前天我的部落格“SEO診斷”排名第三,當時“SEO”關鍵詞排名第十頁,現在掉到了23頁,排名就下降到第十,所以多運用TF*IDF研究能夠協助我們發現很多關鍵詞排名現象,並針對性的制定SEO最佳化策略。

  當然,這個計算都是基於理想狀態的,但是也能夠說明一些SEO現象的產生原因,只要我們能夠掌握TF*IDF演算法的基本思想,然後運用到網站最佳化中,必然能夠更好地最佳化網站,例如我的部落格,降低“SEO”這個詞對於網站排名的影響,可能能夠更好地控制網頁的關鍵詞“SEO診斷”的排名。

  本文由虛子雨,杭州SEO(http://www.soxunseo.com)搜訊網路網編髮表,歡迎大家轉載,轉載時請保留此連結,謝謝合作!



相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.