基於使用者瀏覽記錄的網頁rank思路

來源:互聯網
上載者:User

  

 

  Google的pagerank就不多介紹了,一個能衡量網頁重要程度的演算法,本質上是網頁相互投票的結果,基於這個特性,我們可以通過使用sitemap讓搜尋引擎儘可能瀏覽到多的網站內容,也可以通過多做外鏈來提高網站的PR值,達到SEO的目的。

  市場上大多數搜尋引擎都在使用pagerank類似的方法,且為了保證公正性,都採用純機器啟動並執行方式,通過網頁爬蟲來遍曆網站,這就出現了一些有趣的問題:

  1、一個網頁的內容是很棒的,但是由於外鏈太少,爬蟲在設定的深度閾值下可能無法爬到它,成為了少人問津的“暗內容”

  2、部分網站因為PR值很高,即使轉載的內容或是價值不高的內容,也可能有很好的檢索排名,即使技術領先的搜尋引擎採用語義網路的方法識別優質內容,效果依然不夠好

  為了規避以上問題,引入使用者資料來評判網頁內容的重要性及品質,是一個可研究方向,怎麼做呢?

  假設: 瀏覽行為及時間長度是對網頁品質的最好評判,相當於使用者標註,在大規模資料的情況下,效果應優於機器

  原理:

  1、通過瀏覽器或其他用戶端軟體,最好的防火牆或其他安全軟體,擷取使用者瀏覽日誌,上傳給搜尋引擎的爬蟲資料庫,即是得到使用者瀏覽資料

  2、爬蟲匹配已有索引庫,找到未索引內容,爬之

  3、利用使用者日誌給網頁投票,瀏覽時間越長權重越高,計算出網頁的rank

  缺陷:

  1、依賴用戶端

  2、有使用者隱私問題

  規避:

  1、提出雲殺毒、雲防禦、雲安全,讓使用者同意上傳瀏覽記錄

  2、偷偷上傳,將瀏覽記錄(其他檔案也可以)加密並分拆上傳,在伺服器端組合還原

  好了,思路說完了,來給它起個響亮高深名字:peoplerank

  最後,我這是很嚴肅地說技術

  Via i黑馬 By sluke陸蔚青 原文地址:http://luplusplus.com/peoplerank-modle



相關文章

E-Commerce Solutions

Leverage the same tools powering the Alibaba Ecosystem

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。