仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
分詞演算法以前偶爾也懂些,但是懂的不透徹,最近看了很多相關的書,然後去互聯網上又學習了一部分,算是有了個大概的瞭解。 其實瞭解分詞演算法無論對於個人站長一些中小型企業,都十分有説明。 通過這些詞的拆分,能讓我們對關鍵字的把握更加的精准。 好了,下邊開始今天的正文,如果有不對的的地方,還希望大家多指正。
通常的分詞演算法往往是針對中文搜尋引擎而言,對於Google則不存在,在百度和Google上搜索同樣一個關鍵字或者短語,返回的結果是不同的,這不僅僅是演算法不同或者技術不同的原因,更多是因為分詞演算法的存在。 百度會根據使用者搜索的關鍵字去進行拆分,而Google更多地是把結果直接返回。
不論對於英文還是中文,搜尋引擎索引頁面都是以詞為基礎的,由於中文的博大精深,和英文單詞之間往往相差很多。 有時同一句話,標點符號的位置不同,音調不同,語義就完全的不同,而英文則不存在這樣的問題,英文更多的是把單詞進行拆分。 下邊給大家介紹我對中文分詞演算法的一些理解。
一般中文分詞分為基於詞典和統計兩種匹配,通常兩種方法並不是單一存在著,而是在混合使用。
首先是基於詞典的匹配方法,根據使用者搜索的詞語,搜尋引擎會把這些詞語與自己詞典中的詞條進行匹配,如果匹配成功,就切分出一個單詞。 同時根據方向的不同,分為正向和逆向兩種匹配。 在正向匹配中,按照詞語長度的不同又細分為最大匹配和最小匹配。 這種基於詞典的匹配很大程度上取決於詞典的完整性以及更新情況。
基於此,作為站長,我們無論選擇首頁的目標關鍵字還是內容頁的長尾關鍵字,都應該根據這個原理,不要人為的造詞,如果你的詞語不是大眾經常搜索的,也不是人們預設的詞,那麼在搜索時就不會被返回,所以在選擇關鍵字的時候,不能想當然, 要有準確的判斷。
其次是基於統計的分詞方法,搜尋引擎會進行大量的計算,包括字與字連續的概率,某個短語出現在什麼地方最多,使用者搜索某個短語或者詞的時候回尋找什麼樣的內容,這些都是搜尋引擎基於判斷的依據。 這種方法有明顯的優點,就是對新出現的詞有更快的反應,比如當一個新聞出現的時候,如果大家都搜索這個新詞語,而百度判斷不出來,不能給予正確的搜尋結果,那麼使用者就不會買搜尋引擎的賬。
基於此,我們應該聯想到SEO中很重要的一點,那就是相關性。 比如A5這樣一個詞,我們都知道是代表Admin5站長網,但是剛開始可能搜尋引擎並不知道,如果大家搜索的多了,在不同的地方被提及的多了,那麼搜尋引擎就會判斷出A5這個詞應該和站長有著某種聯繫。 因此,我們做優化網站的時候也要注意相關性,和相關性的網站做友情連結,或者是發佈相關性的內容,都能提升網站在該領域的權威性,當使用者搜索的時候,就能夠更靠前、有更多的機會被搜尋引擎展現。
好了,本文就到這裡吧,中文分詞演算法是搜尋引擎的一個特色地方,他針對的是自己的詞庫和更新率。 除了上邊提到的頁面相關性以及關鍵字選擇要遵循大眾搜索習慣之外,還應該注意對詞的特殊對待,比如加粗,加黑或者使用H標籤。 希望站長通過此篇文章對中文分詞演算法有個更加深入的瞭解,如果有不對的地方,也歡迎指正。 本文來自:牛牛小遊戲,網址:HTTP://www.niuniuxiaoyouxi.com,也歡迎轉載,轉載請保留版權,謝謝!