個人化網頁權重PageRank演算法研究

來源:互聯網
上載者:User

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

目前關於個人化PageRank,其他的常見方法還有模型化PageRank(modular PageRank)和BlockRank等。 這些方法在具體的計算方法上,主要的特點體現在從效率的角度上對演算法進行了必要的優化。

關於加速PageRank演算法的先前研究內容主要使用稀疏性圖結構技術,比如Arasu等提出的觀點,他們不僅僅單純使用上次反覆運算迴圈產生值來計算本輪迴圈值,也使用本輪迴圈已經產生的值來加速本輪迴圈的計算。 甚至提出了Web網路的蝴蝶結結構,並將其用於PageRank值的有效計算中。 然而這些方法並不具有很大的實用性,主要原因在於演算法要求對Web網路矩陣進行排序,這個操作需要按照深度搜索優先的原則進行網路遍歷,這顯然是一種代價極大的運算。 最近Kamvar等也提出一些演算法,使用連續中間迴圈來推斷真實PageRank更好的估計值,但是仍然存在受PageRank演算法初始參數影響的不足之處。

目前對於Web網狀圖結構的分析主要關注于研究圖的屬性,如節點的分佈、網頁連結的情況和Web網頁圖結構的建模等。 然而,對於這些研究並沒有強調如何有效利用這些屬性來加快超鏈分析。

不少學者提出了一些改進做法,如Raghavan和Garcia-Molina等利用主機名稱稱或者URL隱含的Web結構來代表Web圖更為成功的做法也有很多,如Jeh和Widom通過有限修改網頁的權值來表達的個人化網頁權重, 這個重要性權值可以反映使用者指定的初始興趣網頁。 由於對個人化視圖的計算需要反復遍歷整個Web圖結構中的網頁,這只有在運行期間才能實現,所以事先計算和存儲所有的個人化視圖並不現實。 他們利用新的圖論結果和技術構建出表達個人化視圖的「偏好向量」(partial vector),它可以在不同使用者的個人化視圖中共用,同時關於它的計算和存儲花費與視圖數量的多少呈現出合理的比例。 在計算中,還可以採用遞增式計算,這就使得在查詢期間利用偏好向量去構建個人化視圖是可行的。 這個偏好向量即為個人化PageRank向量(personalized PageRank vector,PPV),通俗地說,PPV是種Web網頁的個人化視圖。 按照這個PPV來對網頁結果進行排序可以有效地表達使用者的偏好。

簡單地看,每個PPV的長度都為咒,即Web的網頁數量。 但是由於從一個固定的角度迴圈計算PPV需要多次遍歷Web網頁圖,這顯然是不可能作為一種線上回應使用者查詢的方式。 從另一個角度來看,所有PPV向量的總數量會達到2n(n為網頁總數),這顯然又過於巨大而無法實現離線存儲。 所以,必須將p集合中出現的網頁限制為hub網頁集合H的子集。 H集合通常包含一些使用者最為感興趣的網頁。 在實踐中,H集合可以是具有較高PageRank值的網頁集合(重要網頁)、在人工分類目錄中的網頁(如Yahoo和Open Directory)、特定企業或程式的重要網頁等。 H集合可以看成是計算個人化的基礎。 這種基於PPV的計算方式,不像傳統的方式,能夠和H集合大小成良好的星號調整關係,並且這種技術也可以在更大的PPV集合上取得近似的效果,滿足一些對於任意偏好網頁集合的個人化計算要求。

除此以外,還有一些在計算效果上進行改進的演算法。

  如一種較為成功的做法是BlockRank方法,它主要是充分利用Web網頁間連結結構呈現一種塊狀結構的特徵來改進演算法效率。 關於Web網路塊狀結構的特徵,已有很多學者進行了論證。 例如,據Bharat等的分析,通過對比分析Web網路的連結結構,可以發現近80%左右的網頁超鏈都是同一網站主機內部不同網頁間形成的,而不同主機網站間網頁的超鏈比重僅為20%左右。 如果去除無用的死連結,這一比重表現得更加不平衡,近似于9:l。 進一步將考察範圍限定在功能變數名稱級別後,上述的兩個比重都有明顯的增加,一為84:16,二為95:5,不平衡性明顯加劇。 一般在一個主機網站內,大部分的超鏈由於導航和網站安排,往往會在幾個關鍵的網頁上具有較多的內部連結。 例如,高校網站內一般會對諸如圖書館、教務處和學生處等網頁產生很高的連結比重。 其實這種內部連結較高、外部連結較低的情況在不同級別的Web網頁圖結構中廣泛存在,產生了明顯的塊化現象,而且大部分的塊結構都遠遠小於整個Web的圖結構。

這種Web網路所具有的塊化結構有助於快速計算PageRank,同時為表達個人化PageRank提供了良好的基礎。 這個演算法的思路大體描述如下:先對每個主機的網頁計算當地語系化的PageRank值,得到在主機內部的相對重要權值。 這些當地語系化的PageRank向量可以進一步按照不同Web網頁塊的相對重要程度加權形成全域PageRank值的近似值,然後將此PageRank向量作為標準PageRank演算法的起始向量。 不可否認,個人化PageRank雖然是個非常吸引人的主意,但是它需要對大規模的PageRank向量進行有效的反覆運算計算, 而使用BlockRank演算法和對飆網者的隨機衝浪行為做簡單的限制就可以有效地減少個人化PageRank值的計算複雜度。 這個限制就是當他厭倦時,他並不是從諸多網頁中選擇,而是從主機網站中進行選擇。 也就是說,此時無需考察飆網者跳轉的網頁,而只考慮跳轉的網站。 這時構造的個人化向量具有的維度就是Web網路中主機的個數K,並且向量的元素值也反映飆網者對不同主機的偏好程度。 有了這個限制,當地語系化PageRank向量就無需針對不同的個人化使用者而改變。 事實上,當地語系化的PageRank向量也不會因為矩陣B結構的改變而改變,只有BlockRank向量6才會因為不同的個人化特徵而改變,因此只需對每個基於塊結構的個人化PageRank向量進行重新計算。

應該說,不論從理論上看,還是從實踐上看,利用個人化PageRank來實現搜尋引擎的個人化服務是個非常可行的選擇,適應Web網路資源對資訊檢索提出的特點要求。 它不僅在推薦結果內容上綜合考慮網頁客觀性權重這個重要指標,而且該方法性能較高,主要計算工作都在離線階段完成。 然而,這些現有的個人化PageRank技術都需要使用者登錄並主動提交個人化資訊,卻忽略了使用者對Web網頁的理解,沒有挖掘使用者使用行為,收集使用者個人化資訊的方式不自然,這顯然加重了使用者的使用負擔。 所以,雖然說節省了使用者挑選相關網頁的時間,但是使用者卻需要花更多的時間去實現搜索個人化。 由此可以看出,探討獲取使用者個人化資訊的其他有效形式將是提高此方法效果的關鍵所在,本書也主要對此進行研究,探尋更好的個人化資訊收集和表達方法以適用于個人化PageRank演算法中,該方法較為客觀和全面。 本文由www.q322.com站長提供

相關關鍵詞:
相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.