仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
記得以前剛開始接觸SEO的時候就知道關鍵字出現在標題很重要。 後來知道有「分詞技術」這個說法,對關鍵字分詞,對標題關鍵字安排都有很大的説明。 剛開始學習SEO的時候,會把重要的關鍵字一個一個堆積在標題,比如標題會這樣寫:站長網,個人站長,站長工具,站長下載,站長幫手——中國站長網。 這樣寫雖然是可以,但是使用者看一個網站,一篇文章標題的時候最好是一句話就可以表達清楚,而不是簡單的把關鍵詞羅列出來,儘量讓使用者讀起來能夠比較順暢。
可以寫成:中國站長網—提供站長工具,下載和站長資訊,是個人站長們的好幫手。 這裡就涉及到對分詞技術的理解了。
分詞技術就是當使用者提交一個關鍵字串給搜尋引擎查詢的時候,搜尋引擎要對這個關鍵字串做一系列的匹配處理的一個技術方法。
搜尋引擎查詢處理方法
如果關鍵字不超過三個中文的話就直接到資料庫索引詞彙裡面查找,超過了三個中文漢字的話就用空格,逗號等分割開來。 將使用者提交的關鍵字串分割成若干個詞來查詢。
比如:絲蘭卡假髮網—銷售時尚、非主流假髮品牌。 搜尋引擎就會分成,絲蘭卡,假髮,假髮網,銷售,時尚,非主流,品牌,這種分詞方法成為反向匹配法。
另外再查看這個詞有沒有重複的詞彙,有的話會省略掉。
比如:中國站長網—提供站長工具,下載和站長資訊,是個人站長們的好幫手。 會把出現的四次的「站長」作為一個詞來匹配,預設為一個詞。 這個就是搜尋引擎的查詢處理。
分詞技術發展到目前已經很成熟的了,google是購買協力廠商公司的分詞技術,百度是自己開發的分詞技術,在中文分詞這塊百度要稍稍領先于google。 英文的詞與詞之間是用空格隔開的。 這個分詞比較好做,比如:I am a Chinese,中文為「我是一名中國人」,搜尋引擎可以識別,chinese是一個單詞,但是比較難識別「中,國,人」是三個字要合起來才是一個詞。 另外中問分詞也有人叫切詞。
相關排序和搜尋引擎
搜尋引擎的工作就是把網頁搜集起來,然後按照一定的規則進行排名,目前估計已經有超過100億的網頁被收錄,而且還在不斷增加。 搜尋引擎就是把跟使用者提交的關鍵字最相關的網頁呈現出來,我們看到百度的「76頁」現象就是這個問題,因為把所有的網頁都做排名的話沒有多大意思,使用者只要最相關的那部分就可以了。 也可以叫相關排序。 我們在做關鍵字分析的時候盡可能用相關度比較高的長尾關鍵字來做也是基於這點理論。
1、分詞技術利用字串匹配的分詞方法可以分為三大類:
第一種正向最大匹配法,從閱讀習慣左到右分詞。
第二種反向最大匹配法,跟第一種反過來,從右至左。
第三種最少關鍵字分詞法,就是說把一句話盡可能分出少幾個關鍵字。 比如:絲蘭卡假髮網,銷售時尚‘非主流假髮會分出:絲蘭卡假髮網、銷售、時尚、非主流假髮。
搜尋引擎一般會是上面的三種方法組合起來使用,盡可能減少分詞中的錯誤率,為使用者提供匹配度最高的網頁資訊。
2、基於理解的分詞方法
這種方法就是利用對整個句子的理解,通過對語法,語義,詞義,描述等來理解使用者的需求處理歧義的現象,也叫詞義分詞法,這種方法目前還不是很成熟,處於測試階段。
3、利用統計分詞的方法
這種方法就是利用自身資料庫來長期檢測出那兩個詞同時出現的次數最多,連續的頻率最多的時候就有可能構成一個詞。 不過這個方法有時候出現的錯誤也比較多,比如會經常看到一些,我的,之一,有的等,對這些詞識別就比較差了。 百度的相關搜索功能對這個統計分詞方法比較有説明。
作者資訊:我的絲蘭卡假髮網 HTTP://www.silanka.net QQ:253354150
歡迎轉載,轉載請留作者資訊,謝謝。