分析搜尋引擎如何首先抓取最重要的網頁?

來源:互聯網
上載者:User

  搜尋引擎面對海量的網頁,他們並不是平行的抓取每一個網頁,因為無論搜尋引擎資料庫怎麼擴張,都是無法跟上網頁的增長速度,搜尋引擎會優先抓取最重要的網頁,一方面節省資料庫,一方面對普通的使用者也是有協助的,因為,對使用者來說,他們並不需要海量的結果,只需要最重要的結果。所以說一個好的搜集策略是優先搜集重要的網頁,以便能夠在最短的時間內把最重要的網頁抓取過來。

  那麼搜尋引擎如何首先抓取最重要的網頁?

  通過對海量的網頁特徵分析,搜尋引擎認為重要的網頁有如下的基本特徵,雖然不一定完全準確,但是大多數時候確實是這樣的:

  1) 網頁被其他的網頁連結的特點,如果被連結的次數多或者被重要的網頁所連結,則是很重要的網頁;

  2) 某網頁的父網頁被連結的次數多或者被重要的網頁所連結,比如一個網頁是一個網站的內頁,但是其首頁被連結的次數多,而首頁也連結了這個網頁,則說明這個網頁也比較重要;

  3) 網頁的內容被轉載傳播的廣。

  4) 網頁的目錄深度小,易於使用者瀏覽到。 這裡定義“URL 目錄深度”為:網頁 URL 中除去網域名稱部分的目錄層次,即URL 為http://www.domain.com,則目錄深度為 0;如果是 http://www.domain.com/cs,則目錄深度為 1,一次類推。需要說明的是,URL 目錄深度小的網頁並非總是重要的,目錄深度大的網頁也並非全不重要,有些學術論文的網頁 URL 就有很長的目錄深度。多數重要度高的網頁會同時具有上述 4 個特徵。

  5)優先收集網站首頁,並賦予首頁高的權重值。網站數目遠小於網頁數,並且重要的網頁也必然是從這些網站首頁連結過去的,因此搜集工作應當優先獲得儘可能多的網站首頁。

  這裡問題就隨之出現,搜尋引擎開始抓取網頁的時候,可能既不知道網頁被連結的情況也不知道被轉載的情況,換句話說,最開始的時候他並不能知道前面3項的特徵,這些因素只能在獲得網頁或幾乎所有的 Web 連結結構之後才能夠知道。那麼怎麼解決這個問題呢?那就是特徵4和5是可以在抓取的時候就能知道的,只有特徵 4 是不需要知道網頁的內容(沒有抓取網頁之前)就可以確定某個 URL 是否符合“重要”的標準,而且網頁 URL 目錄深度的計算就是對字串的處理,統計結果表明一般的 URL 長度都小於 256 個字元,這使得 URL 目錄深度的判別易於實現。所以對於搜集策略的確定,特徵 4 和5是最值得考慮的指導因素。

  但是,特徵 4 和5具有局限性,因為連結的深度並不能完全表明這個網頁的重要程度。那麼怎麼解決這個問題?搜尋引擎採用如下的辦法:

  1) URL 權值的設定:根據 URL 的目錄深度來定,深度是多少,權值就減少多少,權值最小為零。

  2) 設定 URL 初始權值為 一個固定的數值 。

  3) URL 中出現字元”/”,”?” ,或”&” 1 次, 則權值減 一個數值 ,出

  現”search”,”proxy”,或”gate” 1 次,則權值減一個數值;最多減到零。(包含”?”,

  或”&” 的URL 是帶參數的形式,需要經過被請求方程式服務獲得網頁,不是搜尋引擎系統側重的靜態網頁,因此權值相應降低。包含”search”,”proxy”,或”gate” ,說明該網頁極大可能是搜尋引擎中檢索的結果頁面,代理頁面,因此要降低權值)。

  4) 選擇未存取 URL 的策略。因為權值小不一定說明不重要,所以有必要

  給一定的機會搜集權值小的未存取 URL 。選擇未存取 URL 的策略可以採用輪流的方法進行,一次按照權值排序取,一次隨機取;或者 N次隨機選取。

  當搜尋引擎抓取了大量的網頁的時候,然後進入到一個階段,對網頁進行前面3個特徵的判讀,再通過大量的演算法判斷網頁的品質,然後給予相對的排名。

  本文由51荷葉茶http://www.51heyecha.com/站長原創提供



相關文章

Cloud Intelligence Leading the Digital Future

Alibaba Cloud ACtivate Online Conference, Nov. 20th & 21st, 2019 (UTC+08)

Register Now >

Starter Package

SSD Cloud server and data transfer for only $2.50 a month

Get Started >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。