經常有人讓我幫忙簡單說說SEO相關的資料分析怎麼做,甚至期望能幾小時速成。但這方面涵蓋的太多,不可能三言兩語就說盡,也不知可從哪裡簡單概括。
SEO是一個非常不成熟的行業,能參考的資料極有限,大多數東西都要通過資料來摸索,而摸索的過程中,往往能揭露憑過往的直覺沒有意識到的真相。所以資料化有時對於SEO是非常殘酷的,往往一份簡單的資料就可以否定掉一群人數年的努力工作。
就拿最常見的例子來說,SEO流量是怎麼組成的?大多數人覺得那是靠熱門關鍵詞撐起來的,或者認為是大量的熱門關鍵詞撐起來的,於是認為熱門詞的排名上去流量肯定會漲,卻不然。對於大多數稍大的網站,絕大多數SEO流量都是由百度指數都沒法看到的極其長尾的詞帶來的。因此哪怕用再大的力氣去做熱門詞的排名,它們貢獻的流量依舊很有限。
或許有人會認為這不可思議,因為從來沒看到過這樣的資料。但這資料是只有通過分析網站的原始日誌才能得出的結論,而Google Analytics此類採樣率極低的統計系統無法看到這樣的資料。更不提哪怕會熟練用GA的SEO也甚少,因此SEO流量的真相幾乎是從不被人看到的。
所以,有時聽人說“SEO已死”,而我經常說“SEO還沒活過”,一點也不誇大。
如何開始學習資料分析
SEO的最終目的是給網站產生收益,因此核心指標有兩個:轉化、流量。
比如流量再可以細分:流量 = 收錄 * 排名 * 點擊率 * 搜尋量
收錄可以再細分:收錄 = 抓取量 * 頁面品質
而比如抓取量,它的瓶頸依情況,可能是抓取時間封頂、可能是抓取總量封頂、可能是頁面總量封頂。各種情況都有不同的處理方式,需加入不同的資料指標。
通過類似這樣的分法,從最終資料指標(轉化、流量)可以逐步細分出幾十幾百個資料指標,這些資料指標都是有用的,因為它們的數值變動以後,最終也會影響到轉化或流量。
(有本熱門的SEO書籍,花了很大的篇幅去寫了對一個網站分析並操作的執行個體,但最後那個網站的SEO流量卻很低,沒見多大效果。因為儘管其中有大量的“分析”,卻多是在看沒意義的資料。)
當一個主要資料指標產生波動的時候(最常見的是總流量變動),就需要通過細分資料來分析具體的原因,後面有兩個舉例提及大致思路與步驟。
之間涉及到的面則非常廣——
首先要瞭解搜尋引擎的基礎原理,這才能知道在什麼情況下什麼資料指標是有關的;
之後需要對多種技術的入門級知識,因為各類資料的擷取方式都不同,有些需要採集、有些需從日誌提取、有些從資料倉儲匯出、有些從API擷取等等,需要學習的方向不盡相同;
單單的資料只是數字,還需要分析資料才能讓它產生價值。臨時性的分析一般用到Excel,監控類的分析則需要自己做個能輸出圖表的報表系統。
這些至少要花個半年功夫才能學會,但並不算難,沒有什麼可畏懼的。就如學習1+1時都會覺得9*9是難的,但學會後再往回看,那就沒什麼了。
一個基礎的假想案例分析
假設個較接近於實際應用的例子:
一個遊戲類論壇,A板塊為網盤遊戲下載,很多頁面上有到X網盤的匯出連結;B板塊為BT下載,頁面上有一個站內的種子下載連結,無站外匯出連結。
開始分析:
統計頁面的抓取數量與即時收錄數量,並計算之後,發現A板塊的頁面品質明顯低於B。(頁面品質 = 收錄數量 / 抓取數量)
那麼此時猜測,是否是A板塊文章頁面上,X網盤的匯出連結導致了它的頁面品質低?
為了驗證猜測,再將A板塊的文章頁面分為兩組,其中aa組有X網盤的匯出連結、bb組沒有X網盤的匯出連結。分別計算其頁面品質。如果aa組文章的頁面品質明顯低於bb組,那麼可以得出初步結論:
X網盤的匯出連結,使得自身文章頁面品質降低,影響到收錄量,並最終導致SEO流量受損。所以需將該類匯出連結做特殊處理,比如由自己站內URL,301跳轉到X網盤等。
當然這個結論未必是正確的。比如,aa組文章具備的特徵,除了具有X網盤的匯出連結外,也可能具備的特徵如轉載文章比較多(遊戲資源貼許多會是轉載),可能是後者真正導致了其頁面品質的低下。
儘管更嚴謹的資料分析(比如再將轉載文章與非轉載文章分組)更可能得出準確的結論,但這般嚴謹下去就沒個頭了,SEO畢竟不是火箭科學,在某步的資料擷取很有難度時,藉助經驗來猜測下可能更划得來。
所以可以先實施項目,然後再監控整個A板塊相對B板塊的頁面品質是否有拉近,從而以最終效果來證實之前的猜測正確與否。
儘管這個例子完全為假設,我並不確定實際情況中,文章到網盤的匯出連結是否會影響到頁面品質。但類似的例子平日能遇到很多,且此類分析的時候所需的資料收集起來方便,因此這是日常SEO資料分析最容易碰到的一類情況。
一個進階的實際案例分析
(數字與實際數值不等,但大致比例相同)
內頁的流量在某一時間段大幅度下降,需分析其下降原因。
一個常用且管用的思路是,取25%的熱詞,看它們帶來的流量、與另外75%詞分別的變化。如果得出的資料是熱詞的流量下降多,即多半為熱詞的排名有下降;如果下降程度相當,則為整體的影響。
首先,計算得出25%的熱門關鍵詞,它們的流量下滑幅度為35%;而75%的非熱詞,它們的流量下滑幅度為30%。
但雖然資料差了5%,但差距還不是特別明顯,需要進一步分析才能確定。
因為關鍵詞往往是可以被進一步分詞的,如“SEO文章”可進一步分為兩個檢索詞——“SEO”、“文章”,而且檢索詞才是搜尋引擎真正在處理的。所以進一步的分析就去分析25%的熱門檢索詞流量的變化。
最終得出的資料是,包含25%熱門檢索詞的關鍵詞流量下降了40%,不包含熱門檢索詞的詞流量僅下降10%。
那麼結論就很清晰了,熱門檢索詞相關的流量產生了變化。之後對比網站近期的項目上線列表,沒有涉及到這部分的修改,所以這是百度的演算法調整所導致的。
知道了流量的變動原因後,自然也就可以有一些相應的改進方案了。儘管方案能執行與否尚取決於網站對SEO的重視程度,但至少不用借口於:“百度總是喜歡K我們的站”之類。
作者:zero 非磚家、一線做SEO的、天天碼代碼的 個人部落格:技術領域 http://tech-field.org/