仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
看過這篇文章後,你或許可以明白以下兩件事兒:
1、一個單頁面網站,為啥頁面上都是出鏈,被指向的連結也很少,但是卻有很好的排名;
2、網站頁面上是不是沒有出鏈(指向外部的)才是最好的?
看完上述,有興趣沒?好吧,不管你有木有興趣,哥要繼續了。
在一些電視劇上,或許大家會經常看到這樣的場景,男豬腳A為了瞭解或者認識某個人,某件事兒,往往會去當地的旅館飯店向店小二打聽、或者直接找到當地的地頭蛇去瞭解情況。
無它,只是因為他們就像是一個當地各種事情各種人的活嚮導、活地圖,他們可能對這些事情的始末了解的不夠詳盡,但是必然知道和這件事兒有牽連的人或者物。
所謂調查事情的始末,一張關係+事件網而已。
這種事情放到搜尋引擎演算法上,理所應當的同樣成立,只不過角色道具全部發生了轉換:男豬腳A變成了廣大的搜尋引擎使用者,關係與事件網變成了連結組成的各種關係,而店小二與地頭蛇變成了我們今天看到的各種讓人倍感疑惑的網站。
將這些聯繫起來的,就是HITS演算法。
先來看看百度百科的解釋。
HITS演算法:一個網頁重要性的分析的演算法,根據一個網頁的入度(指向此網頁的超連結)和出度(從此網頁指向別的網頁)來衡量網頁的重要性。 其最直觀的意義是如果一個網頁的重要性很高,則他所指向的網頁的重要性也高。 一個重要的網頁被另一個網頁所指,則表明指向它的網頁重要性也會高。 指向別的網頁定義為Hub值,被指向定義為Authority值。
如果你木有看懂,木得關係,哥來繼續給你說一下。 對於任何一個頁面來說,其本身必然有兩種屬性:目錄屬性(還有人喜歡叫做樞紐)+權威屬性。
目錄屬性即他本身會有出鏈,也會更像一個導航,告訴讀者想看到關於某件事兒更詳細的資訊可以點連結出去查看;權威屬性即每個頁面都是基於某個主題所闡述的,這個頁面也必然會有基於該主題的權威值,大小而已。
瞭解了這個,開始繼續看下它是怎麼運用到搜尋引擎演算法中去的。
在前面介紹搜尋引擎原理的文章(www.seosos.cn/seo-tips/search-engine-principle.html)中,我們介紹過搜尋引擎是怎麼處理頁面並返回結果的, HITS演算法正是在此基礎之上開展起來的。 下面來看詳細的步驟。
1、查找根集合
將查詢q提交給基於關鍵字查詢的檢索系統,從返回結果頁面的集合中取前n個網頁(如n=200),作為根集合(root set),記為S,則S滿足:
1.1、S中的網頁數量較少;
1.2、S中的網頁是與查詢q相關的網頁;
1.3、S中的網頁包含較多的權威(Authority)網頁。
2、拓展相關頁面
有了一些牛逼的授權頁面,開始拓展相關頁面。
其維度也只有兩種:指向授權頁面的和授權頁面指向的。
要明白為什麼這麼拓展頁面,需要先理解一句話: 一個權威頁被多個目錄頁指向,說明這個權威頁很權威;一個目錄頁指向了多個權威頁,說明這個目錄頁很目錄。
先解釋一下:哥不是純心跟您玩繞口令,自己先理解一下。
3、計算頁面的權威值和目錄值
有了一個相關的子集,也理解了上述的意思,開始計算各個頁面的目錄值和權威值。 計算公式很簡單: 先來給個初始子集的集合P={p1,p2,p3...pn},然後根據這些頁面之間的連結關係建立起一個矩陣:
如果頁面1有連結指向頁面2,則a12的值即為1,反之,則為0。
a頁面的權威值即為指向它的所有目錄頁面的目錄值之和;
a頁面的目錄值則為它指向的所有授權頁面的權威值之和。
4、返回結果
按照頁面的目錄值和權威值返回結果。
好了,聰明的同志應該也可以看到,這個演算法是基於某一主題的,可以很好的反應出了人際關係中的一些特點,也能很好的反應出了互聯網關係的一些特點。
它也會有一些比較噁心的不足之處,比如耗時(在返回結果之後再計算,會增加使用者等待的時間),會發生主題漂移(不考慮內容,只考慮連結會造成本來在說A事情,可能結果變成了有一部分在說B事情)等等。
當然,從中我們可以看到一個事實,那就是其實搜尋引擎的演算法並木有傳說中的那麼神秘,很多也是基於人際關係為原型計算出來的(前面的PR演算法(www.seosos.cn/search-engine/pr.html)也一樣), 因為畢竟,搜尋引擎演算法工程師也是人,相比較來說,他們的優勢在於怎麼通過一系列的演算法將這一原理變成機器可以讀懂的現實。
本文首發于【SEO科學之美】
轉載請注明連結位址:HTTP://www.wenjuntech.com/sem/blog-1678.html