從搜尋引擎蜘蛛訪問日誌 看蜘蛛訪問規律

來源:互聯網
上載者:User

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

為了更好的觀察網站被蜘蛛爬行的規律,我租用的伺服器又沒有提供訪問日誌,不得已,花了不少時間編寫了一個基於PHP的專門分析蜘蛛爬行紀錄的程式,經過三個月的對幾個目標網站的觀察,得出以下幾個小經驗給大家分享,當然,因研究有限 ,肯定有不足的或錯誤的地方,請大家不要向我扔磚頭啊。

一、百度蜘蛛

這期間我上了兩個新網站,發現,百度蜘蛛一般一到三天就可以爬行到首頁,開始更新很猛,大約會持續兩天到一個星期,三天后就可以在百度中site到首頁,雖然百度蜘蛛爬行了上萬個頁面,但往往只會收錄幾個頁面,兩個星期之後, 百度將每天只抓取一兩次首頁,其它頁面很少抓取,這個過程會持續一段時間,長的是幾個月,短的幾天。 但百度在這段時間裡收錄量會有所增加。 這段時間 可能是考察期吧。 在這段時間裡,我的一個站被百度K了,蜘蛛也就不來了。 過了這個時間段後,百度蜘蛛訪問將趨於穩定,我有兩個站百度每天都只來抓取200到300次,收錄量變化不大。 而我另一個站 shop.hhbmw.com 可能因為外鏈較多,百度蜘蛛來得相對較勤,近一個月來,每天來訪2萬到8萬次左右,波動比較大,不過,site一下,百度收錄量並不高,這可能要到下次百度大更新時才能反應結果。

百度蜘蛛訪問目標網頁時,會把URL中的漢字編碼字元轉換成漢字,(如 HTTP://shop.hhbmw.com/proview/%E9%99%86%E5%BB%BA%E5%86%9B88/ 6c318ea2660bcc4b73b220e16edf96b3.htm 會變成 HTTP://shop.hhbmw.com/proview/陸建軍88/ 6c318ea2660bcc4b73b220e16edf96b3.htm ,即「%E9%99%86%E5%BB%BA%E5%86%9B88」 轉換成了「陸建軍88」),這樣就會出現一個問題了,如果主機對中文URL支援不好, 可能會影響百度的收錄。

百度蜘蛛訪問某個網站時,其訪問也有一定的規律,不少都是按漢字的音序來訪問的。

二、谷歌蜘蛛

谷歌蜘蛛對新網站發現的速度很快,但收錄相對平穩,每天的抓取的頁面數也比較穩定,PR越高,外鏈越多的網站更新越快。 反之,GOOGLE PR低的網站更新較慢。

三、搜捭、搜狗、有道蜘蛛

更新比較快,但不太穩定,每天的訪問波動也比較大,比百度更難捉摸,我有個站被搜搜和搜狗都K得只剩首頁了。

四、雅虎、MSN

雅虎的更新快,但收錄少,MSN的更新極慢。

對於robots.txt的支援,百度、谷歌、搜捭、搜狗、雅虎、MSN等的蜘蛛支援度比較好,對robots的Crawl-delay 語法也能很好的支援。

而有道蜘蛛基本上不理會robots.txt 的Crawl-delay 語法。

附今天的訪問日誌截圖:

  

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.