上次筆者在《被人所遺忘的SEO根本》中提到了關於網站日誌的一些見解,很多讀者感到很迷茫,甚至於很多讀者都不知道如何查看網站日誌,今天筆者就來詳細的講解下網站日誌在SEO中所發揮的角色,以及一些常見的分析方法。
在上篇文章筆者提到,決定網站排名的是每次蜘蛛爬過你網站以後帶回資料庫的那個綜合值。很多讀者都對這個理解產生了偏差。很多人以為這個綜合值就是網站日誌中的每條資料,或者每一個IP所代表的意義,其實這是一個錯誤的理解。首先,網站日誌只能代表蜘蛛爬過的痕迹。還有對於IP的理解很多網上的資料筆者都不敢苟同。筆者在網上看到很多什麼一篇新聞爬過220.181.108.*IP的話,第二天就會馬上收錄,在筆者看來這完全是扯淡。請記住非常重要的一點,百度蜘蛛的IP是在爬你網站之前決定的,而不是Crowdsourced Security Testing道你這個網頁是高質頁面,然後再用提權蜘蛛來爬行。這是一個非常大的誤區。
當然日誌的重要性無可厚非。它雖然不能完全看出你網站的排名,但是你卻可以從中發現很多趨勢。所以今天筆者就來談談一些關於百度蜘蛛的一些常見判斷。為什麼是百度蜘蛛呢?因為現在的網站SEO基本上已經可以理解為百度引擎最佳化了。下面筆者就來詳細地講解下如何分析網站日誌。
2013-09-09 00:07:16 59.60.7.125 GET /news/news2013524236.html - 80 - 123.125.71.16 HTTP/1.1 Mozilla/5.0+(Linux;u;Android+2.3.7;zh-cn;)+AppleWebKit/533.1+(KHTML,like+Gecko)+Version/4.0+Mobile+Safari/533.1+(compatible;++http://www.baidu.com/search/spider.html) - - www.jinh.cn 200 0 0 16143 296 140
上面一段文字是筆者從網站日誌中截取的完整的一小段。GET的前面有兩個資料,前半部分是時間,後半部分就是你網站的網域名稱IP了,GET後面到-前面所代表的是蜘蛛所爬行的頁面。很多時候都是什麼都沒有的,就代表了它爬了你網站的首頁。後面的-後面就是非常重要的爬行蜘蛛的IP了。一般常見的IP其實就兩種一種是提權蜘蛛的IP220.181.108.*,另一種就是垃圾內容的查看蜘蛛123.125.71.*。對於新站來講,還需要特別留意一個IP:121.14.89.*。這個IP代表了你的新站已經擺脫了新站的考察期,正式成為一個普通網站看待。還有一些需要注意的就是IP的第三個區間段為68或者51的IP,當這些IP大量出現在你的網站的時候,我可以負責任的告訴你們:親們,你可以為你的網站準備後事了。
當然很多時候你還會發現很多你看不懂的IP,大多時候都是你在用一些網站監測工具的時候,它們類比百度蜘蛛產生的IP,如站長之家,愛站網等。這些的冒牌貨用NSLOOKUP命令一查便知,完全沒必要太過於在意。
然後IP後面跟著的一大堆唯一要注意就是那個網址。它代表了蜘蛛找到你的網站的入口。比如你再某部落格或者論壇發表了一篇文章,而後面發現蜘蛛是從那裡找到你的網站的。那麼,說明這個外鏈是效果比較好的,你就可以繼續堅持去做下去。然後就是最後那些傳回值了,就是200 0 0這一段。返回的代碼一般有200、301、304、403、404這些代碼在網上都可以找到先關說明筆者就不多做介紹了。最後的那三個值代表了下載,上傳以及耗時。
說了那麼多,我想很多人對於網站的日誌已經有了初步的認識了。在這裡,筆者再次強調一點,蜘蛛的IP是在未爬行到網站之前決定的,所以千萬別看到220.181.108.*的IP就以為是天使的眷顧,它也很可能是死神的鐮刀!下次筆者將和大家分享,如何深度分析網站的日誌 。
本文由聯科科技http://www.lianke.cn絕望的花生米提供,轉載請註明出處,謝謝!