網路蜘蛛:深度優先還是廣度優先

來源:互聯網
上載者:User

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

"網路蜘蛛" 學名Spider,又叫"網路爬蟲"! 關於網路蜘蛛的概述這裡就不多講了 今天我主要想說的是 關於 蜘蛛的爬行設計的方式與方法

我們可以分為2種:

那麼什麼是深度優先? 什麼是廣度優先?有什麼用? 上海SEO (SWJ) 下面為大家講解 !

本人學知淺薄 只會用 通俗的話與道理與大家分析 如有錯誤請及時聯繫我 所以還請大家多多見諒包含!

一種是 深度優先策略 一種是 廣度優先策略! 以下我們就圍繞這2點進行分析 SWJ 非常歡迎大家一起交流 學習與探討!

深度優先 顧名思義就是 讓 網路蜘蛛 儘量的在抓取網頁時 往網頁更深層次的挖掘進去 講究的是深度!

也泛指: 網路蜘蛛將會從起始頁開始,一個連結一個連結跟蹤下去,處理完這條線路之後再轉入下一個起始頁,繼續跟蹤連結!

以下我發張圖 大家看下: (下面這張是 簡單化的網頁連接模型圖 其中A為起點 也就是蜘蛛索引的起點!)

總共分了5條路徑 供蜘蛛爬行! 講究的是深度!

(下面這張是 經過優化的網頁連接模型圖! 也就是改進過的蜘蛛深度爬行策略圖!)

根據以上2個表格 我們可以得出以下結論:

圖1:

路徑1 ==> A --> B --> E --> H

路徑2 ==> A --> B --> E --> i

路徑3 ==> A --> C

路徑4 ==> A --> D --> F --> K --> L

路徑5 ==> A --> D --> G --> K --> L

經過優化後

圖2: (圖片已經幫大家標上方向了!)

路徑1 ==> A --> B --> E --> H

路徑2 ==> i

路徑3 ==> C

路徑4 ==> D --> F --> K --> L

路徑5 ==> G

深度爬行的優點是:

網路編目程式在設計的時候相對比較容易些把 其他我也沒發覺有什麼優點... 還有就是 蜘蛛的這種 "勇往直前"的精神 值得學習下! ^_^

深度爬行的缺點是:

缺點麼 多了一點點 呵呵! 每次爬行一層 總要向"蜘蛛老家" 資料庫訪問一下 問問老總有必要還要爬下一層嗎! 爬一層 問一次.... 引用一句高人的話 如果一個蜘蛛不管3721不斷往下爬 很可能迷路 更有可能爬到國外的網站去.. 本來目標是中文網站 因為IP的問題 國外IP做了中文站的話.... 就容易去別人"老家"了.. 這樣不僅增加了系統資料的複雜度 更是增加的伺服器的負擔 我想沒有一家搜索公司會願意則樣的把,... 除非腦子"秀"了 .. ^_^

接下來 我們介紹下普遍使用的 廣度優先策略 大家休息下 喝杯咖啡 看的也累把 我寫的也累.... ^^

廣度優先 在這裡的定義就是 層爬行

什麼叫 蜘蛛 層爬行?

就是一層一層的爬行 按照層的分佈與佈局 去索引處理與抓取網頁! 當然SE不會派一個蜘蛛去的 每層會派一個或多個蜘蛛Spider去抓取內容!

(下面這張就是 廣度優先策略圖(層爬行圖))

大家一看就明白了把 聰明的人 下面的文章也不需要看了 答案已經告訴你了 ^ ^

根據以上表格 我們可以得出以下結論路徑圖:

路徑1 ==> A

路徑2 ==> B --> C --> D

路徑3 ==> E --> F --> G

路徑4 ==> H --> i --> K

路徑5 ==> L

廣度爬行的優點是:

廣度相對深度 對資料抓取更容易控制些! 對伺服器的負栽相應也明顯減輕了許多! 爬蟲的分散式處理 使的速度明顯提高! 其他的想也可以想到拉!

廣度爬行的缺點是:

暫時還沒觀察到有什麼缺點 呵呵 就好比 DIV+CSS樣式表(層佈局)一樣道理 你覺得有什麼缺點嗎?

難道是新人不會這個問題? ^ ^

不會不要緊 下載這本電子書去看看 <> 下載位址: HTTP://www.seo-sh.cn/zl/seoqita/122.html

其他還有什麼建議意見 請多多指教與批評 上海SEO618.html">負責人SWJ 非常歡迎各位SEO愛好者 一起交流 學習與探討SEO優化技術,網站策劃也可以 ^_^ 連絡方式見首頁底部!

轉自 上海SEO HTTP://www.seo-sh.cn

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.