仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
在日常的網站運行和維護中,我們常常需要通過空間的www日誌來瞭解蜘蛛的抓取情況,並對平時的工作作出調整, 以下將一步一步的讓你充分瞭解日誌的設置方式以及蜘蛛的抓取特徵分析讓您充分瞭解每一個參數的含義並作為自己調整和修改的參考。
第一:需要確認自己的虛擬主機或者伺服器開啟了日誌功能,一般的虛擬空間商的控制台中都有www日誌的記錄功能,並提供站長們下載和分析,以下是編者使用的一個日誌樣式,因為每一個空間商不同其操作的順序和方式不僅相同, 此處僅作一個參考。
首先點擊圖一 或進入到圖二中的介面,點擊下載weblog日誌就會出現圖三 圖四的介面,圖四裡面的每一個TXT都是以年-月-日來命名的,並且記錄了日誌的大小,點擊查看就能看到詳細的資訊。
第二:在代碼中查到蜘蛛的痕跡,因為一個TXT日誌都是數百K,上千行,所以每條去檢查是不現實的,我們需要充分瞭解蜘蛛的特徵並通過查詢功能快速的定位,因為蜘蛛的代碼是spider, 所以當檢索spider時將出來所有的蜘蛛的來訪情況,比如百度,google,360等等,而百度蜘蛛的特徵是 baiduspider,我們這裡著重講解百度蜘蛛的情況。
我們先用記事本打開下載的TXT文檔,並通過編輯查找功能(圖五)來快速的檢索,在檢索框中輸入baidu,並按確認就能找到百度蜘蛛的抓取代碼(圖六)
第三:找到百度蜘蛛的抓取行以後針對每一個參數,編者進行講解並將對應的情況進行說明(參看示例圖)。
參數1:這是百度蜘蛛來抓取內容的時間,這個時間一般和電腦時間相差8個小時,這主要是日誌時間使用的是格林威治時間,與北京時間相差8小時;即您需要將時間加8小時才是對應的北京時間,所以參數1所示的蜘蛛來抓取的時間是 5月23日13時8分。
參數2:抓取內容的方式, GET表示抓取的意思後面緊接著的/index.html是被抓取的頁面,這裡表示蜘蛛來抓去了首頁, 如果GET 後面是 /-- 則表示蜘蛛沒有抓取任何東西,這時候需要引起網站維護人員的注意, 你的內容或者是有問題,或者網站的首頁佈局,或者是內容文章等有問題,需要具體問題具體分析。
參數3:這個是蜘蛛來抓取內容時候伺服器的IP位址,因為現在非常多的功能變數名稱是使用CNAME的方式來解析的,所以很多站長根本都不知道自己的網站的IP是多少,而這個IP就是空間商讓蜘蛛來抓取內容的IP, 當你網站有問題時候可以通過查這一IP上的網站的個數與收錄情況等來判斷自己是否受到牽連。
參數4:這個參數是表示協定狀態,通常200表示正常,404表示找不到檔,500表示內部伺服器錯誤,一般網站所有頁面都應該是200才正確,如果改版則一般會出現404錯誤,這裡需要根據不同的傳回值去查詢具體的原因
題外話:每一位站長的新網站上線以後都在焦急的等待蜘蛛來抓取並索引,以讓自己的網站有好的排名,但是現在的百度蜘蛛對於新網站的審查已經非常的嚴格而且時間一般都在20天以上, 所以想要被百度蜘蛛來抓取內容和獲得好的排名已經越來越困難,隨著蜘蛛智慧化程度越來越高,想通過矇騙或者黑帽的手法來騙得蜘蛛的信任已經不太容易, 而且即使得手了也會在百度的反作弊中心的後期對網站的深度檢查中被發現並將作弊網站根據作弊程度做相應的頂格懲罰,所以奉勸站長們還是踏實做站,潛心做一個白帽高手,讓你維護的企業網站排名無憂。
以上文章由四川硼酸HTTP://www.cdxzhg.com在A 5首發,希望與所有的站長們一起共勉,如需轉載請注明出處,謝謝合作。