你有沒有注意IIS日誌?
百度爬蟲正常抓取頁面的時候,返回的HTTP狀態是200 0 0,現在爬到他的網頁總是200 0 64,他問這個64是什麼意思,是不是百度清除頁面,有什麼解決方法。 我之前也寫過一篇關於百度,google,yahoo搜尋引擎的蜘蛛爬蟲的文章,談到了三大搜尋引擎抓取網站頁面的特點。 但是沒有針對返回的HTTP狀態諸如200 0 64進行分析說明。 這是IIS裡的相關解釋:net helpmsg 64--The specified network name is no longer available. 意思是指定的網路名不可用,或許是路徑錯誤,或許是檔已經不存在,但這僅僅是IIS自身的HTTP狀態說明。 而在百度爬蟲日誌裡返回200 0 64,而眾所周知,百度是有人工干預的,這64說明了什麼? 在百度研究院的論壇裡看到一位版主有這樣的一段解釋: 蜘蛛在IIS裡的行為200 0 64 的解釋 根據我前段時間到現在的觀察,雖然沒有足夠的證據,但是基本上可以肯定在IIS中,如果蜘蛛後面的號碼出現200 0 64 那麼網站中的這個單頁 面就會在搜尋引擎中消失了.我被K的頁面後面都寫著200 0 64 ,不知道大家是否認同,還有其他看法,當然,我說這個不夠絕對,因為我也有一個頁面後面顯示著200 0 64 但是在搜尋引擎中依舊可以找到.這也說明著問題,但大多200 0 64行為的網頁就已經沒有了.
所以我覺得蜘蛛的200 0 64行為可以被解釋為清除資料。
這個解釋,目前看上去還是有可信度的。 flymorn認為,抓取狀態成200 0 64是不正常的抓取,正常的抓取是成功標誌200 0 0,當變成了200 0 64的狀態時說明搜尋引擎在抓取這個頁面的時候出現了錯誤,沒有正常的進行常規抓取;對於百度來說, 百度很可能是已經不再把這些頁面抓進主索引庫,而是放進了「百度沙箱」裡進行考察,考察多久,就看你如何改進,也許,你看不到百度把這些被K的網站釋放出來的時候,人是沒有規律的。 正好,flymorn也有被百度K的網站,打開這個網站的IIS日誌(.log尾碼,如ex080222.log),果不其然,也發現了百度返回200 0 64的狀態: 2008-02-22 07:14:37 W3SVC78302822 58.17.36.91 GET /article/1/79.html - 80 - 61.135.163.102 Baiduspider+(+[url]HTTP://www.baidu.com/search/spider.htm[/ url]) 200 0 64 2008-02-22 07:18:07 W3SVC78302822 58.17.36.91 GET /article/1/11.html - 80 - 61.135.163.102 Baiduspider+(+[ url]HTTP://www.baidu.com/search/spider.htm[/url]) 200 0 64 對於已經被百度拔毛的網站來說,如果你還在乎百度,那就趕緊改正網站上的一切作弊的地方,消除過度優化,消除惡意連結 ,等待百度再次光臨,一般來說,這需要2-3個月的時間,還是認真做站,先想著使用者為好。
對新站來說, 因為百度收錄到放出這個過程是很長的,適當關注IIS日誌可以讓你提前知道自己是否被收錄,不是很好嗎?對老站來說,是不是當心百度K呢,那麼看日誌可以提前知道它是否會K你,不至於突然被秒殺。 因此,看IIS日誌是很有必要的。
我的新站今天上線了 c3c3c小說網 www.c3c3c.com 歡迎大家聯繫我做個友情連接,共同進步。