基於SEO的Log 日誌分析軟體應該提供那些功能?
今天是連續第3個要過了12點才睡的日子了,希望今天可以告一個段落.
最近在考慮如何做基於 SEO 的日誌分析工具, 每天都熬夜, 還真吃不消啊.
當使用者在瀏覽器地址欄輸入一個網址的時候,web伺服器在返回使用者需要頁面的同時也記錄使用者的其他資料,比如使用者的瀏覽器是什麼牌子的,使用者使用的IP地址,作業系統甚至記錄了使用者是輸入的網址還是從其他連結跳轉過來的等等。(好羅嗦)這部分記錄無疑是最基礎也是最重要的資料,很多web資料採礦工作都是從這裡作為起點進行的。
看過web伺服器(比如apache , iis )日誌的朋友們都知道,當使用者訪問一個頁面產生的日誌並不是只有一行,而是有很多行。稍加註意就會發現,web伺服器為當前訪問頁面中包含的每個檔案(圖片、javascript指令碼等)都產生了一行記錄。這一行行的記錄就組成了原始記錄檔。
對SEO工作來說,分析日誌是一項必不可少的基本功。與SEO最相關的資訊莫過於搜尋引擎的來訪記錄和從搜尋引擎帶來的流量2個指標。目前國內網站使用者使用的web log 日誌分析工具大多使用 awstats 一類的開源工具。可以說awstats的流行,與日誌分析愛好者的引薦是有很大關係的比如車東等人。
雖然我也使用awstats等工具,但毫無疑問現在市場上專門針對seo的log日誌分析工具還很少見。同時由於awstats採用perl編寫,加上使用awstats自有的檔案格式,這就導致了在awstats的基礎上加以修改提供基於seo的日誌分析功能也非容易之事。
那麼基於SEO的日誌分析應該提供那些功能呢,這就是我這幾天想的問題.
目前已經實現了以下三個部分:
1.從原始記錄檔中提取 頁面訪問 的記錄 .(去掉 .js , .css , .jpg 等記錄)見:"原始Log -> 頁面 Log "
2.針對提取出的 頁面訪問記錄 進行派重 (bloom filter), 提取唯一的訪問記錄.見:"頁面Log -> sitemap "
3.針對提取出的 頁面訪問記錄 ,提取從 google 和 baidu 過來的搜尋關鍵詞 記錄.
見:"頁面Log-> 搜尋索引鍵分析"
準備提供的功能:
通用功能: 除去沒有意義的請求(如JPG,GIF等), 分析真實的訪問請求
多日日誌: 蜘蛛的圖表
單日日誌: 蜘蛛的來訪數字, 蜘蛛的來訪時間段(這個很重要,可以判定搜尋引擎更新頻率)
alpha
基於SEO的日誌分析