合格的SEO應該會真正的IIS日誌分析

來源:互聯網
上載者:User

  在我們的最佳化之路中有一些問題一直困擾著我們,例如:我們發的外鏈是否起到效果?我們買的空間是否能夠穩定?蜘蛛對我們的那些頁面比較喜歡而對哪些不喜歡?蜘蛛什麼時候抓取我們的網站頻繁,我們需要什麼時候更新內容?而這些問題其實我們可以通過我們的伺服器IIS日誌可以簡單的分析出來,作為一個合格的SEO,真正的會分析IIS日誌才可以而不是簡單的去看狀態代碼,在這提醒一下大家買空間的時候一定要買能夠下載IIS日誌的,不能下載的買都不要買,下面給大家介紹幾點通過IIS日誌分析出的網站問題。​

  一、IIS日誌的重要作用​

  1.通過IIS日誌可以瞭解蜘蛛對網站的基本爬取情況,可以知道蜘蛛的爬取軌跡和爬取量,通過我們的IIS日誌,外鏈的多和少和網站蜘蛛的爬取量是有直接影響的,我們所說的連結誘餌就是如果你做了一個外鏈,蜘蛛在爬取這個外鏈頁面並把頁面放出來時,蜘蛛可以通過你留的這個連結來爬取你的網站,而IIS日誌正是會記錄下蜘蛛的這次爬取行動。​

  2.網站的更新頻率也和IIS日誌中蜘蛛抓取的頻率有關,一般來說更新頻率越高,蜘蛛的抓取頻率越高,而我們網站的更新不僅僅只是新內容的添加同時還有我們的微調操作。​

  3.我們可以根據IIS日誌的反應情況,對我們的空間的某些事情和問題提前進行預警,因為伺服器如果出問題的話在IIS日誌中會第一時間反映出來,要知道伺服器的穩定速度和開啟速度兩者都會直接影響我們的網站。​

  4.通過IIS日誌我們可以知道網站的那些頁面是很受蜘蛛歡迎的,而哪些頁面是蜘蛛連碰都不去碰的,同時我們還能發現有一些蜘蛛由於是過度爬取對我們的伺服器資源損耗是很大的,我們要進行屏蔽工作。​

  二、如何下載日誌及日誌設定注意事項​​

  1.首先我們的空間要支援IIS日誌下載,這一點是很重要的,在我們購買空間之前必須要先問好支不支援IIS日誌下載,因為有的服務商是不提供這項服務的,如果支援的話空間後台一般都有日誌WebLog日誌下載這個功能把它下載到根目錄在用FTP傳到本地就可以,伺服器的話可以設定將記錄檔下載到指定路徑。​

  2.這裡有個很重要的問題,IIS日誌強烈建議設定成每小時產生一次,小型的企業站和頁面內容較少的網站可以設定成一天,它預設是一天,如果內容多或者大型站設定成一天產生一次,那麼一天只產生一個檔案,這個檔案會相當的大,我們有時電腦開啟是會造成死機,設定的話找空間商協調設定即可。​

  三、IIS日誌的分析​

  1.日誌的尾碼名是log的我們用記事本開啟,選擇格式裡的自動換行這樣看起來方便,同時用搜尋功能搜尋BaiduSpider和Googlebot這兩個蜘蛛。​

  例如:​

  百度蜘蛛​

  2012-03-13 00:47:10 W3SVC177 116.255.169.37 GET / - 80 - 220.181.51.144 Baiduspider-favo+(+http://www.baidu.com/search/spider.htm) 200 0 0 15256 197 265​

  Google機器人​​

  2012-03-13 08:18:48 W3SVC177 116.255.169.37 GET /robots.txt - 80 - 222.186.24.26 Googlebot/2.1+(+http://www.google.com/bot.html) 200 0 0 985 200 31​

  我們分段來解釋​

  2012-03-13 00:47:10 蜘蛛爬取的日期和時間點​

  W3SVC177 這個是機器碼這個是惟一的 我們不去管它​

  116.255.169.37 這個IP地址是伺服器的IP地址​

  GET 代表事件​​

  GET後面就是蜘蛛爬取的網站頁面,斜杠就代表首頁

  80 是連接埠的意思​

  220.181.51.144 這個IP則是蜘蛛的IP,這裡告訴大家一個鑒別真假百度蜘蛛的方法,我們電腦點擊開始運行輸入cmd開啟命令提示字元,輸入nslookup空格加蜘蛛IP點擊斷行符號,一般真百度蜘蛛都有自己的伺服器IP而假蜘蛛則沒有。​​​

  如圖

  上面是真蜘蛛,下面是假蜘蛛

  

 

  如果網站中出現了大量的假蜘蛛則說明有人冒充百度蜘蛛來採集你的內容,你就需要注意了,如果太猖獗那會很佔用你的伺服器資源,我們需要屏蔽他們的IP.

  200 0 0這裡是狀態代碼 狀態代碼的意思可以在百度裡搜尋下​

  197 265最後兩個數字則代表著訪問和下載的資料位元組數。

  2.我們分析的時候先看看狀態代碼 200代表下載成功,304代表頁面未修改,500代表格服務器逾時,這些是一般的其他代碼可以百度一下,對於不同的問題我們要處理。​

  3.我們要看蜘蛛經常爬取哪些頁面,我們要記錄下來,分析他們為什麼會經常被蜘蛛爬取,從而分析出蜘蛛所喜歡內容。​

  4.有時候我們的路徑不統一出現帶斜杠和不帶斜杠的問題,蜘蛛會自動識別為301跳轉到帶斜杠的頁面,這裡我們就發現了搜尋引擎是可以判斷我們的目錄的,所以我們要對我們的目錄進行統一。​

  5.我們分析日誌分析時間長了,我們能夠看出蜘蛛的抓取規律,同一目錄下面的單個檔案的抓取頻率間隔和不同目錄的抓取頻率間隔都可以看出來,這些抓取頻率間隔時間是蜘蛛根據網站權重和網站更新頻率來自動確定的。​

  6.蜘蛛對於我們的頁面的抓取是分等級的,是根據權重依次遞減的,一般順序為首頁、目錄頁、內頁。​

  7.不同IP的蜘蛛他們的抓取頻率也是不相同的​

  ​IIS日誌是我們分析網站的重要參考資料,我們要經常對其進行分析,總結經驗,這樣可以讓我們對一些問題了如指掌。

  本文由http://www.51diaoche.net原創 A5首發 歡迎轉載



相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.