基於使用者流覽記錄的網頁rank思路

來源:互聯網
上載者:User
關鍵字 Google

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

  

Google的pagerank就不多介紹了,一個能衡量網頁重要程度的演算法,本質上是網頁相互投票的結果,基於這個特性,我們可以通過使用sitemap讓搜尋引擎盡可能流覽到多的網站內容,也可以通過多做外鏈來提高網站的PR值, 達到SEO的目的。

市場上大多數搜尋引擎都在使用pagerank類似的方法,且為了保證公正性,都採用純機器運行的方式,通過網頁爬蟲來遍歷網站,這就出現了一些有趣的問題:

1、一個網頁的內容是很棒的,但是由於外鏈太少,爬蟲在設定的深度閾值下可能無法爬到它,成為了少人問津的「暗內容」

2、部分網站因為PR值很高,即使轉載的內容或是價值不高的內容,也可能有很好的檢索排名,即使技術領先的搜尋引擎採用語義網路的方法識別優質內容,效果依然不夠好

為了規避以上問題,引入使用者資料來評判網頁內容的重要性及品質,是一個可研究方向,怎麼做呢?

假設: 流覽行為及時長是對網頁品質的最好評判,相當於使用者標注,在大規模資料的情況下,效果應優於機器

原理:

1、通過瀏覽器或其他用戶端軟體,最好的防火牆或其他安全軟體,獲取使用者流覽日誌,上傳給搜尋引擎的爬蟲資料庫,即是得到使用者流覽資料

2、爬蟲匹配已有索引庫,找到未索引內容,爬之

3、利用使用者日誌給網頁投票,流覽時間越長權重越高,計算出網頁的rank

缺陷:

1、依賴用戶端

2、有使用者隱私問題

規避:

1、提出雲殺毒、雲防禦、雲安全,讓使用者同意上傳流覽記錄

2、偷偷上傳,將流覽記錄(其他檔也可以)加密並分拆上傳,在伺服器端組合還原

好了,思路說完了,來給它起個響亮高深名字:peoplerank

最後,我這是很嚴肅地說技術

Via i黑馬 By sluke陸蔚青 原文位址:HTTP://luplusplus.com/peoplerank-modle

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.