仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
通過分析網站日誌Log檔我們可以看到使用者和搜尋引擎蜘蛛訪問網站的行為資料,這些資料能讓我們分析出使用者和蜘蛛對網站的偏好以及網站的健康情況。 在網站日誌分析中,我們主要需要分析的是蜘蛛行為。
在蜘蛛爬取及收錄過程中,搜尋引擎會給特定權重網站分配相應的資源量。 一個搜尋引擎友好型的網站應該充分利用這些資源,讓蜘蛛可以迅速、準確、全面的爬取有價值、使用者喜歡的內容,而不浪費資源在無用的、訪問異常的內容上。
但由於網站日誌中資料量過大,所以我們一般需要借助網站日誌分析工具來查看。 常用的日誌分析工具有:光年日誌分析工具、web log exploer。
在分析日誌時,對於單日日誌檔我們需要分析的內容有:訪問次數、停留時間、抓取量、目錄抓取統計、頁面抓取統計、蜘蛛訪問IP、HTTP狀態碼、蜘蛛活躍時段、蜘蛛爬取路徑等; 對於多日日誌檔我們需要分析的內容有:蜘蛛訪問次數趨勢、停留時間趨勢、整體抓取趨勢、各目錄抓取趨勢、抓取時間段、蜘蛛活躍週期等。
下面我們來看看網站日誌如何分析?
網站日誌資料分析解讀:
1、訪問次數、停留時間、抓取量
從這三項資料中我們可以得知:平均每次抓取頁面數、單頁抓取停留時間和平均每次停留時間。
平均每次抓取頁面數=總抓取量/訪問次數
單頁抓取停留=每次停留/每次抓取
平均每次停留時間=總停留時間/訪問次數
從這些資料我們可以看出蜘蛛的活躍程度、親和程度、抓取深度等,總訪問次數、停留時間、抓取量越高、平均抓取頁面、平均停留時間,表明網站越受搜尋引擎喜歡。 而單頁抓取停留時程表明網站頁面存取速度,時間越長,表明網站存取速度越慢,對搜尋引擎抓取收錄較不利,我們應儘量提高網頁載入速度,減少單而立停留時間,讓爬蟲資源更多的去抓取收錄。
另外,根據這些資料我們還可以統計出一段時間內,網站的整體趨勢表現,如:蜘蛛訪問次數趨勢、停留時間趨勢、抓取趨勢。
2、目錄抓取統計
通過日誌分析我們可以看到網站哪些目錄受蜘蛛喜歡、抓取目錄深度、重要頁面目錄抓取狀況、無效頁面目錄抓取狀況等。 通過對比目錄下頁面抓取及收錄情況,我們可以發現更多問題。 對於重要目錄,我們需要通過內外調整增加權重及爬取;對於無效頁面,在robots.txt中進行遮罩。
另外,通過多日日誌統計,我們可以看到站內外行為給目錄帶來的效果,優化是否合理,是否達到了預期效果。 對於同一目錄,以長期時間段來看,我們可以看到該目錄下頁面表現,根據行為推測表現的原因等。
3、頁面抓取
在網站日誌分析中,我們可以看到具體被蜘蛛爬取的頁面。 在這些頁面中,我們可以分析出蜘蛛爬取了哪些需要被禁止爬取的頁面、爬取了哪些無收錄價值頁面、爬取了哪些重複頁面url等,為充分利用蜘蛛資源我們需要將這些位址在robots.txt中禁止爬取。
另外,我們還可以分析未收錄頁面原因,對於新文章,是因為沒有被爬取到而未收錄抑或爬取了但未放出。 對於某些閱讀意義不大的頁面,可能我們需要它作為爬取通道,對於這些頁面,我們是否應該做Noindex標籤等。 但從另一方面講,蜘蛛會弱智到靠這些無意義的通道頁爬取頁面嗎,蜘蛛不懂sitemap?【對此,笨鳥有疑惑,求分享經驗】
4、蜘蛛訪問IP
曾經有人提出過通過蜘蛛的ip段來判斷網站的降權情況,笨鳥感覺這個意義不大,因為這個後知性太強了。 而且降權更多應該從前三項資料來判斷,用單單一個ip段來判斷意義不大。 IP分析的更多用途應該是判斷是否存在採集蜘蛛、假蜘蛛、惡意點擊蜘蛛等。
5、訪問狀態碼
蜘蛛經常出現的狀態碼如301、404等,出現這些狀態碼要及時處理,以避免對網站造成壞的影響。
6、抓取時間段
通過分析對比多個單日蜘蛛小時爬取量,我們可以瞭解到特定蜘蛛對於本網站在特定時間的活躍時段。 通過對比周資料,我們可以看到特定蜘蛛在一周中的活躍週期。 瞭解這個,對於網站內容更新時間有一定指導意義,而之前所謂小三大四等均為不科學說法。
7、蜘蛛爬取路徑
在網站日誌中我們可以跟蹤到特定IP的訪問路徑,如果我們跟蹤特定蜘蛛的訪問路徑則能發現對於本網站結構下蜘蛛的爬取路徑偏好。 由此,我們可以適當的引導蜘蛛的爬取路徑,讓蜘蛛更多的爬取重要、有價值、新更新頁面。 其中爬取路徑中我們雙可以分析頁面物理結構路徑偏好以及url邏輯結構爬取偏好。 通過這些,可以讓我們從搜尋引擎的視角去審視自己的網站。
從網站日誌分析中我們還能得到更多內容,挺女網www.tingnv.com限於網站SEO知識的不足及日誌工具的缺乏就無法再深入了,歡迎對此有研究的朋友留言交流。