仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
為了更好的觀察網站被蜘蛛爬行的規律,我租用的伺服器又沒有提供訪問日誌,不得已,花了不少時間編寫了一個基於PHP的專門分析蜘蛛爬行紀錄的程式,經過三個月的對幾個目標網站的觀察,得出以下幾個小經驗給大家分享,當然,因研究有限 ,肯定有不足的或錯誤的地方,請大家不要向我扔磚頭啊。
一、百度蜘蛛
這期間我上了兩個新網站,發現,百度蜘蛛一般一到三天就可以爬行到首頁,開始更新很猛,大約會持續兩天到一個星期,三天后就可以在百度中site到首頁,雖然百度蜘蛛爬行了上萬個頁面,但往往只會收錄幾個頁面,兩個星期之後, 百度將每天只抓取一兩次首頁,其它頁面很少抓取,這個過程會持續一段時間,長的是幾個月,短的幾天。 但百度在這段時間裡收錄量會有所增加。 這段時間 可能是考察期吧。 在這段時間裡,我的一個站被百度K了,蜘蛛也就不來了。 過了這個時間段後,百度蜘蛛訪問將趨於穩定,我有兩個站百度每天都只來抓取200到300次,收錄量變化不大。 而我另一個站 shop.hhbmw.com 可能因為外鏈較多,百度蜘蛛來得相對較勤,近一個月來,每天來訪2萬到8萬次左右,波動比較大,不過,site一下,百度收錄量並不高,這可能要到下次百度大更新時才能反應結果。
百度蜘蛛訪問目標網頁時,會把URL中的漢字編碼字元轉換成漢字,(如 HTTP://shop.hhbmw.com/proview/%E9%99%86%E5%BB%BA%E5%86%9B88/ 6c318ea2660bcc4b73b220e16edf96b3.htm 會變成 HTTP://shop.hhbmw.com/proview/陸建軍88/ 6c318ea2660bcc4b73b220e16edf96b3.htm ,即「%E9%99%86%E5%BB%BA%E5%86%9B88」 轉換成了「陸建軍88」),這樣就會出現一個問題了,如果主機對中文URL支援不好, 可能會影響百度的收錄。
百度蜘蛛訪問某個網站時,其訪問也有一定的規律,不少都是按漢字的音序來訪問的。
二、谷歌蜘蛛
谷歌蜘蛛對新網站發現的速度很快,但收錄相對平穩,每天的抓取的頁面數也比較穩定,PR越高,外鏈越多的網站更新越快。 反之,GOOGLE PR低的網站更新較慢。
三、搜捭、搜狗、有道蜘蛛
更新比較快,但不太穩定,每天的訪問波動也比較大,比百度更難捉摸,我有個站被搜搜和搜狗都K得只剩首頁了。
四、雅虎、MSN
雅虎的更新快,但收錄少,MSN的更新極慢。
對於robots.txt的支援,百度、谷歌、搜捭、搜狗、雅虎、MSN等的蜘蛛支援度比較好,對robots的Crawl-delay 語法也能很好的支援。
而有道蜘蛛基本上不理會robots.txt 的Crawl-delay 語法。
附今天的訪問日誌截圖: