有關搜尋引擎爬蟲抓取原理淺析

來源:互聯網
上載者:User

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

本文簡單的分析了爬蟲抓取網頁的一些基本原理與大家同享,能基本瞭解網頁的幾個排名因素:連結的建設和網頁的佈局,多多體會,寫的不好也別罵,謝謝!

爬蟲的工作原理包括抓取,策略和存儲,抓取是爬蟲的基本勞動過程,策略是爬蟲的智慧中樞,存儲是爬蟲的勞動結果,我們按照由淺入深的過程來瞭解整個爬蟲的工作原理。

1:從種子網站開始抓取

基於萬維網的蝴蝶型結構,這種非線性的網頁組織結構,就會出現一個抓取順序的問題,這種抓取順序的策略必須保證盡可能地抓取所有網頁。

一般來說,爬蟲選擇抓取蝴蝶型左邊的結構為抓取出發點,典型的如sina.com和sohu.com這樣的入口網站的主頁,每次抓取網頁之後分析其中的URL,這種字串形式的連結是指向其他網頁的URL,它們指引著爬蟲抓取其他網頁。 (基於這點我們可以初步理解引擎先左後右,先上後下的抓取原因了)

a:深度優先的策略(Depth-First Traversal)

深度優先的遍歷策略類似家族繼承策略,典型的如封建帝王的繼承,通常為長子,如果長子去世,長孫的優先順序大於次子的優先順序(這點大家多多仔細分析琢磨下),如果長子和長孫都已經去世,那麼次子繼承, 這種繼承上的優先關係也稱深度優先策略。 (從這點上我們可以瞭解到蜘蛛的抓取欄目頁先後順序)

b:寬度優先的策略(Breadth-First Traversal)

寬度優先我們又稱為廣度優先,或者叫層次優先,例如:我們在給祖輩和父輩還有平輩敬茶的時候先給最年長的祖輩,其次為父輩,最後為平輩,在爬蟲抓取上也採取了這樣的策略。 基於使用寬度有限的策略主要原因有三點:

1>首頁重要的網頁往往離種子比較近,例如我們打開新聞站的時候往往是最熱門的新聞,隨著不斷的深入衝浪,PV值增加,所看到網頁重要性越來越低。

2>萬維網的實際深度最多能達到17層,到達某個網頁的路徑深入很多,但是總存在一條很短的路徑。

3>寬度優先有利於多爬蟲的合作抓取(Mozk是根據前輩的資料分析和IIS日誌分析,暫且認為,有不同見解,歡迎討論交流),多爬蟲合作通常先抓取站內連接,遇到站外連接然後開始抓取,抓取的封閉性很強。

附:連結的優化,避抓取連結的閉環,同時也避免該抓取的資源沒有得到抓取,浪費大量的資源做無用功。 (如何建立合理的內部連結可以參照小站)。

2:網頁抓取優先策略

網頁的抓取優先策略也稱為「面頁選擇問題」(page selection),通常抓取重要性的網頁,這樣保證有限資源(爬蟲,伺服器負載)盡可能的照顧到重要性高的網頁,這點應該很好理解。

那麼哪些網頁才是重要性的網頁呢?

網頁的重要性判斷因素很多,主要有連結歡迎度(知道連結的重要性了吧),連結的重要度和平均深度連結,網站品質,歷史權重等主要因素。

連結的歡迎度主要是由反向連結(backlinks)的數量和品質決定,我們定義為IB(P)。

連結的重要度,是一個關於URL字串的函數,僅僅考察字串本身,比如認為「.com」「home」的URL重要度比「.cc」和「map」較高(這裡是比方不是絕對,就如我們通常預設首頁index.**一樣, 要定義其他名稱也可以,另外排名是個綜合因素,com的不一定排名就好,只是其中一個很小的因素而已),我們定義為IL(P)

平均連接深度,個人鄙見,根據上面所分析的寬度優先的原則計算出全站的平均連結深度,然後認為距離種子網站越近重要性越高。 我們定義為ID(P)

我們定義網頁的重要性為I(P)

那麼:

I(p)=X*IB(P)+Y*IL(P)

ID(P)由寬度優先的遍歷規則保證,因此不作為重要的指標函數,為了保證重要性高的網頁被抓取,所以,這樣的抓取完全是合理,科學的。

本文的第1點是講解的一個點,第二點是分析的一個面,文筆不怎麼好,大家多多體會下。

SEO的目標是提高網站的品質,提高網站的品質是提高網站使用者體驗友好度,提高網站使用者優化度的終極目標是離開SE做常青樹,以上是Mozk的鄙見,畢竟SEO是一個排名的逆向推理過程,不可能全對,只是對資料的一種分析, 任何資料只能是參考,還是要多靠自己的實踐,歡迎光臨小站www.woaiseo.com,Mozk與您一起學習SEO。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.