seo搜尋引擎關鍵詞技術

來源:互聯網
上載者:User


  中國的文字博大精深,不同的標點符號,不同的斷句就代表著不同的意思。所以,曾經有一位Google的科學家說:“如果可以做好中文搜尋引擎,那麼我們就不怕任何語種的搜尋引擎研究了。”


中文分詞對於影響搜尋引擎結果排序有著至關重要的作用。我們在實際的搜尋引擎最佳化中,為了避免很多主關鍵詞的大量競爭,也會使用到中文分詞技術來做SEO最佳化。

 目前,主流的分詞辦法有兩種,一種是基於統計模型的文文書處理,另外一種是基於字串匹配的逆向最大匹配法。

  基於統計模型的文文書處理

  從形式上看,詞是穩定的字的組合,因此在上下文中,相鄰的字同時出現的次數越多,就越有可能構成一個詞。因此字與字相鄰共現的頻率或機率能夠較好的反映成詞的可信度。可以對語料中相鄰共現的各個字的組合的頻度進行統計,計算它們的互現資訊。定義兩個字的互現資訊,計算兩個漢字X、Y的相鄰共現機率。互現資訊體現了漢字之間結合關係的緊密程度。當緊密程度高於某一個閾值時,便可認為此字組可能構成了一個詞。這種方法只需對語料中的字組頻度進行統計,不需要切分詞典,因而又叫做無詞典分詞法或統計取詞方法。但這種方法也有一定的局限性,會經常抽出一些共現頻度高、但並不是詞的常用字組,例如“這一”、“之一”、“有的”、“我的”、“許多的”等,並且對常用詞的識別精度差,時空開銷大。實際應用的統計分詞系統都要使用一部基本的分詞詞典(常用詞詞典)進行串匹配分詞,同時使用統計方法識別一些新的詞,即將串頻統計和串匹配結合起來,既發揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。

  基於統計模型的文文書處理,因為技術性比較高,而且只是使用在搜尋引擎分詞演算法的過程中,如果學會,對於SEO的協助會更大,各位可以加入我的SEO培訓班進行深入討論。這裡更多的說一下基於字串匹配的逆向最大匹配法。

  一般來說,我們在SEO中使用最多的分詞辦法就是基於字串匹配的逆向最大匹配法。這個辦法其實很簡單。我們以一個簡單的例子來說明。

  “瑞星一直以品質和服務開拓安全市場”。

  如果這個句子我們以“查字典”的辦法正向切分的話,就%

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.