飄渺蝶舞:關於網頁信噪比和相關度計算

來源:互聯網
上載者:User

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

研究SEO這麼長時間,忽然發現自己總是停留在SEO的門口徘徊不前,今天起開始研究一些更深的東西,呵呵。

一般我們查相關關鍵字可能會通過兩個方式,一個是查看百度相關搜索,另外一個是通過目測,看看兩個詞彙之間是否具有相關度,實際上後面一種辦法是相當不科學和不准確的。

還記得小達哥做163郵箱這個詞的時候,在百度搜索「163郵箱」出現「丘仕達」這個關鍵字嗎?當時很多人開始研究相關關鍵字,前段時間我也做過類似實驗,搜索SEO出現「飄渺蝶舞」。 那麼這究竟是如何出現的呢?

舉個例子,我們現在有兩個網頁

A網頁的內容是手機描述,出現最高頻率的關鍵字是:手機,藍牙,彩屏

B網頁的內容是手機服務,出現最高頻率的關鍵字是:中國移動,彩鈴,短信

如果我們僅僅按照目測的話,我們會得出以下的結果

A網頁和B網頁是不相關的

搜索A的詞不會出現B,而搜索B的詞,不會出現A

這是明顯有錯誤的,我們在查看網頁詞彙的相關度的時候,如果僅僅看到的是網頁表面的詞彙,我們無法把握很多相關長尾詞彙,我們要看到的是這個詞後面隱含更深的意義。

我們在搜索「手機」這個關鍵字的時候,搜尋引擎返回的資料往往有可能會是以下這樣

{彩屏*彩屏在文章中的權重,藍牙*藍牙在文章中的權重,彩鈴*彩鈴在文章中的權重,......}

按照這樣的演算法,我們就可以將一篇文章中的關鍵字拓展出多個相關詞彙,也可以將其他相關詞彙所對應的向量拓展更多的詞彙。

這樣我們就需要計算一個相關詞彙的矩陣M。

假如現在有a詞和b詞

那麼M(a,b) = {關鍵字a,b的相關度}

這樣以來,兩篇文章的相關度的計算公式就變成了R= Sigma Vi*M(a,b)*Vj

那麼相關度到底如何計算呢?

舉個例子,手機和藍牙,我們用以下方式計算

一個文章集合 {W},總文章數目為N,其中含有單詞A的文章總數為N1,含有單詞B的文章總數是N2,含有{A+B}的文章總數是 N12,那麼相關性這麼計算

CorrAB= N12/(N1+N2-N12)-(N1*N2)/(N*N)

注意,這裡計算的結果有可能會變成負值,如果A和B都是小量的

CorrAB= N12/(N1+N2-N12)

這樣就可以算出兩篇文章中的相關度了

現在讓百度來告訴我們手機和藍牙之間到底會被百度認為有多少相關度

搜索手機:百度一下,找到相關網頁約100,000,000篇

搜索藍牙:百度一下,找到相關網頁約28,000,000篇

搜索手機+藍牙:百度一下,找到相關網頁約22,400,000篇

Corr{手機,藍牙}=22,400,000/(100,000,000+28,000,000-22,400,000)=0.21 也就是21%

利用這個辦法計算網頁信噪比,是衡量一個網頁關鍵字的最準確的,當然也是最核心的演算法。 呵呵,看明白了嗎?沒有的話多看幾次,這些都是一個seoer所必須擁有的哦~

本文原載:飄渺蝶舞的SEO夢想(HTTP://www.piaomiaodiewu.cn/)

轉載請注明出處

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.