熟知蜘蛛兩種爬取方式來調整網站布局

來源:互聯網
上載者:User

  近段時間百度對反垃圾頁面的執行力度在日趨增強這讓很多網站排名都受到大幅波動,當然筆者小站也不例外,但小魚始終明白一點搜尋引擎不斷調整演算法的本身是為了符合使用者體驗這也說明一點只要我們站在使用者的角度去運營自己的小站那麼網站的排名就自然不會差。今天筆者針對站內收錄這塊給大家分享下熟知蜘蛛爬取的兩種方式來改變網站結構的布局。

  網站收錄對於很多朋友來說一直是一個追問的話題,除了我們通常所說的sitemap製作外還有一點不可小卻那就是網站的層次布局,為什麼這樣說呢?下面筆者就蜘蛛的兩種爬取方式來為你一一說道:

  通常我們所看到的百度蜘蛛和Google機器人都是通過深度優先和寬度優先的方式來進行爬取的,這裡為了讓大家更容易理解特意筆者小站來舉例說明。

  一、深度優先遍布抓取

  深度優先抓取就類似我的掃路車站,網站首頁>產品展示>掃路車系列,首選抓取是以這樣的方式來抓取的,等到抓取完畢這些欄目之後,在進行抓“掃路車系列”欄目下的文章,這樣就是深度優先策略,類似於家庭關係一樣。長子、次子然後是長孫等這樣的關係。

 

  二、就是寬度優先的遍布抓取

  這種方式的抓取,深度是不斷的在增加的。類似於這樣的“首頁 > 公司簡介> 產品展示>產品價格>公司簡介...”爬蟲來的你網站,會順著一個欄目一級級向下抓取,等這個“公司簡介”欄目下被抓取完畢後,在進行其子下一個欄目。這樣的寬度抓取是有一定的原因的,基於網站布局的問題,往往是重要的頁面距離種子網站(種子網站是爬蟲開始抓取的起點)是比較近的,這樣符合習慣。

 

  所以,你可以看到一個大型門戶網站,最容易看到的是一些實事新聞,這點是距離種子網站越近可以理解為越重要的頁面;其次,中文全球資訊網的深度沒有我們想象的那麼深,到達一個網頁路徑不僅僅是一個,所以爬蟲總能找到最近的路徑到達當前頁面,據相關資料表明中文全球資訊網的深度為17;還有一點就是,多爬蟲的合作策略,基於這個規則大部分的抓取的起始網頁為站內的,逐漸的才會轉向站外的連結,抓取的封閉性是比較強的。

  基於上述的兩種抓取方式,我們不難看出,網站要儘可能的節省爬蟲的抓取時間,因為爬蟲到你網站的時間是一定的,縮短其單頁面的抓取時間會提高你網站的抓取量,進而會影響你網站的收錄量,最終能夠影響到你網站的SEO流量。根據以上兩種方式,來合理布局你網站的內容,讓爬蟲能夠很容易的抓取到你想要被抓取的東西,這樣合理的布局好內容,讓網站的seo流量有一個突破瓶頸的提升。本文由湖北程力集團http://www.clczzc.com原創發布,轉載請註明出處! 



相關文章

E-Commerce Solutions

Leverage the same tools powering the Alibaba Ecosystem

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。