摘要: 搜尋引擎蜘蛛是搜尋引擎自身的一個程式,它的作用是對網站的網頁進行訪問,抓取網頁的文字、圖片等資訊,建立一個資料庫,回饋給搜尋引擎,當使用者搜索的時候,搜尋引擎就會把
搜尋引擎蜘蛛是搜尋引擎自身的一個程式,它的作用是對網站的網頁進行訪問,抓取網頁的文字、圖片等資訊,建立一個資料庫,回饋給搜尋引擎,當使用者搜索的時候,搜尋引擎就會把收集到的資訊過濾, 通過複雜的排序演算法將它認為對使用者最有用的資訊呈現出來。 深入分析網站的SEO表現的時候,一般我們就會考慮搜尋引擎蜘蛛的抓取品質,而其中能夠幫我們優化網站可能會涉及到下面的幾個蜘蛛抓取相關的概念:
1.爬取率:既定時間內網站被蜘蛛獲取的頁面數量。
2.爬取頻率:搜尋引擎多久對網站或單個網頁發起一次新的爬行。
3.爬取深度:一個蜘蛛從開始位置可以點擊到多深。
4.爬取飽和度:唯一頁面被獲取的數量。
5.爬取優先:那些頁面最常作為蜘蛛的入口。
6.爬取冗余度:網站一般被多少蜘蛛同時爬取。
7.爬取mapping:蜘蛛爬取路徑還原。
這幾個概念也是我們可以用來做資料分析的幾個方面,那麼如何將他們運用到SEO當中去呢?下面我簡單地談一談自己的一些具體的想法。
1、分析爬取率驗證模糊經驗理論
分析搜尋引擎蜘蛛首先會考慮的一個參數就是爬取量,一般我們考慮蜘蛛爬取量的單位是以一天為一個時間段,那麼我們很多時候考慮的就是一天時間內的爬取率。 當然,你也可以根據自己的需要調整時間段的限定,如劃分到每個小時,來充分瞭解各個時間段的蜘蛛的抓取情況,然後針對性的做一些調整。 其中我覺得一類分析可以給我們帶來很多的成就感,即對於一些模糊經驗理論的驗證。
例如我們經常聽到這樣一句話:「做網站內容的時候要定時定量的更新,培養搜尋引擎蜘蛛的抓取習慣,隨意的改變更新時間,可能影響蜘蛛對網站內容的抓取」,這句話到底正確不正確呢? 這裡就可以運用網站的日誌進行分析搜尋引擎蜘蛛的抓取率來解釋。 具體的操作方法就是對一個月內每天每個小時段的蜘蛛抓取情況進行拆分統計(注意資料樣本選取的合理性),然後對每個時間段進行分析,對比就可以發現哪個時間段搜尋引擎蜘蛛來的比較勤, 再和自己做內容更新的情況進行一個對比就可以很快的得出結論。
2、提高爬取頻率提高提升收錄
搜尋引擎蜘蛛的爬取頻率很多時候是由網站內容品質決定的,因為只有網站有更新鮮更好的內容,才能更吸引蜘蛛來反復抓取,例如很多大型的內容型網站,每天更新大量的內容,這樣就把蜘蛛一直留在了站內,頁面抓取的頻率自然會提高。 而提升了爬取頻率,對於頁面中內容和連結的更新就會被搜尋引擎蜘蛛更快的抓取到,能夠更充分的收錄網站的頁面內容資訊。
很多朋友都說自己的網站快照不更新,或者滯後好幾天,個人覺得也是蜘蛛抓取的頻率不夠造成的。 要想快照更新快,特別是新站,前期一定要多做內容建設,內容頁面如果沒有內容的更新,一般蜘蛛可能不會抓取收錄,或者抓取了但是不返回資料,當下次使用者搜索時候可能就會調用搜尋引擎資料庫中存儲的一些資料。
3、研究蜘蛛爬取習慣並優化習慣
至於後面談到搜尋引擎蜘蛛的爬取深度,飽和度,優先爬取,冗余度以及爬取路徑都是對於蜘蛛爬取習慣和爬取策略的研究,因為自己也沒有針對性的去實踐分析,所以只能在理論上談談自己的一些想法。
搜尋引擎蜘蛛的爬取深度如果不夠深,主要是因為網站在結構佈局的時候沒有考慮到這蜘蛛是否能夠充分抓取或者是否按照一層一層的抓取,這裡就涉及到連結入口的佈局,也就會考慮到蜘蛛爬取優先的一些入口,很多時候對一些大的網站做診斷, 來提升其流量和收錄主要的策略佈局就是優化蜘蛛抓取優先的入口,實現的方法就是採用nofollow標籤遮罩一些頁面。 還需要分析的可能是爬取的飽和度,因為對於單個頁面的爬取太多是在浪費蜘蛛資源,我們如果能夠適當的控制這些資源的分配,那麼對於頁面的抓取和收錄的提升肯定有很大的説明。
至於冗余度和爬取路徑可能就需要大家再深入的分析,後面如果還有深入的文章會再和大家一起探討蜘蛛抓取的情況。