略析百度蜘蛛爬行

來源:互聯網
上載者:User

  這幾天一直在搞網站和產品推廣,不懂的東西很多很多,但推廣的那些事中,很多名詞都非常的吸引我。首先是SEO,瞭解SEO的過程中,碰到了“外部連結”,學習外部連結的時候又偶遇“蜘蛛爬行”,一下子接收了那麼多資訊,感覺相當神奇,SEO的事也的確不簡單。

  而今天想跟大家談談“蜘蛛爬行”這個詞。我相信我不是第一個提到它的,因為我是後來者,但我希望我的描述能讓更多的人瞭解這個詞,畢竟,很多專業的介紹都相當專業,正因為太專業,而讓人覺得無法理解。

  首先,介紹一下百度收錄。網路世界上有很多很多網站,網站中包含了許許多多的網頁,不計其數,就像我們人一樣,60多億的人口。那麼,有些人在世界上很有影響力的,比如成龍、李小龍、麥克傑遜等等,但像我們這些無名小卒,就那麼的卑微了。對世界貢獻大的,自然就出了名,那麼我可以換句話來說,在網路上“有貢獻”的,就會被百度收錄,收錄的是它的網路地址,被百度收錄了,假如收錄的威望很多,那你有可能出現在百度搜尋的頭條,而頭條永遠是備受關注,正因為這個位置誰都想爭,隨之便產生了SEO(搜尋引擎最佳化)。

  然後,收錄的內容統一放在一個庫裡,有條有序,而這個庫在網路世界中有一個很好的名字“資料庫”,至於資料庫的原理我就不多說了,這裡大家主要認識到它是以一定格式儲存或者記錄資料的東西,“蜘蛛爬行“就用到這個東東。再跟大家說一下“蜘蛛”,當然不是我們日常所見的蜘蛛,簡單來說它是一個電腦程式,爬行的過程就是實現演算法的過程(至於說法,不能簡單地理解為日常的算術過程,它的意義相當於一個活動的策劃流程),最近好像百度更改了搜尋演算法,但具體怎麼改還是讓大家慢慢去瞭解吧。

  “蜘蛛爬行”形象一點,有縱向爬行也有橫向爬行,也就是我們電腦專業術語的深度遍曆和廣度遍曆,而遍曆的內容就是大大小小的網站或網頁,遍曆過後蜘蛛主動下載網頁,然後將下載回來的網頁通過各種程式計算過後才放到檢索區,才會形成穩定的排名,然後被百度的收錄到資料庫裡,最後顯示在百度網頁上。而在這裡,百度派出的不止一個“蜘蛛”,而是多個,或者十個,或者百個、千個,更或者萬個、幾十萬個,總之它的數目肯定不少,而派出蜘蛛在這裡就是電腦術語:線程。顯然多個蜘蛛就是多個線程,多線程執行搜尋的效率才會高。多個“蜘蛛”一起搜尋,就是一個廣度上的搜尋,一個“蜘蛛”順著某一個規則走下去,就是一個深度搜尋。而網頁的搜尋深度優先和廣度優先,百度蜘蛛抓頁面的時候從起始網站(即 種子網站指的是一些門戶網站)是廣度優先抓取是為了抓取更多的網址,深度優先抓取的目的是為了抓取高品質的網頁,這個策略是由調度來計算和分配的,百度蜘 蛛只負責抓取,權重優先是指反向串連較多的頁面的優先抓取,這也是調度的一種策略,一般情況下網頁抓取抓到40%是正常範圍,60%算很好,100%是不可能的,當然抓取的越多越好。我在學習瞭解的過程中,偶遇了一篇介紹蜘蛛爬行的安全性的文章,裡面介紹到了蜘蛛一般會優先選擇遍曆那些網站,會自動躲開那些網路漏洞,免得自己陷進去,這個挺吸引我的,弱弱記得這篇文章裡介紹說:優先遍曆靜態網站,因為動態網站裡可能存在死迴圈,這樣蜘蛛進去就出不來了,不過一般蜘蛛搜尋的過程會先檢測網站的安全性,發現這些毀滅性的動作,就會避開。我想這點值得大家考慮一下在建立動態網站的過程中,一定要嚴謹自己的程式碼,免得造成網站漏洞,最後沒有蜘蛛敢進去。

  今天就介紹到這裡,很多不到之處,望各位多多指正!轉載請帶上:亞洲陶瓷商城:www.asiachinachina.com



相關文章

E-Commerce Solutions

Leverage the same tools powering the Alibaba Ecosystem

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。