摘要: 一.前言 本文比較適用與中大型網站的SEO人員,小網站也可以參考。 目的在於探討一種挖掘網站的內容潛力,把網站中使用者可能會關心的內容呈現給使用者,滿足其需求,獲取相應的SEO流
一.前言
本文比較適用與中大型網站的SEO人員,小網站也可以參考。
目的在於探討一種挖掘網站的內容潛力,把網站中使用者可能會關心的內容呈現給使用者,滿足其需求,獲取相應的SEO流量。
很多大型網站都在用的一種方法,但是很少有人出來詳詳細細的解釋。
這樣的SEO流量是如何獲得的,下面舉一個通俗易懂的例子。
假設我在百度上搜索「iOS 英雄無敵3」,目的是找一個能在iOS下運行的英雄無敵3這個遊戲。
事實上這個遊戲並不存在。 因此壓根不存在一個頁面可以讓我找到我想要的內容(如果有也是標題党)
於是我進入了tgbus的這個關於iOS 英雄無敵3的頁面。
我在這個頁面上找到了iOS上的英雄無敵2這個遊戲以及其他類似英雄無敵3的iOS遊戲,以及一些奇奇怪怪的新聞(ok,這個頁面做得並不是很容易閱讀)
Finall,我在tgbus上下載了英雄無敵2的iOS版本試試。
OK,我們再換個實際生活中例子:
一個姑娘去買衣服,於是看上一條粉紅色的連衣裙,但是沒她要的尺碼。
這時候營業員會怎麼做,沒錯,推薦一些類似顏色or款式的連衣裙,並且有碼。
(TGBUS似乎推薦出了一條牛仔褲。 )
SO,我們應該如何去找出使用者想要的連衣裙和我們倉庫中有的連衣裙,並且在最恰當的時候給使用者最好的結果,還能獲取到SEO流量,這並不是一件很簡單的事情。
Wait,這不是就一個推薦引擎麼?這麼複雜的玩意交給工程師做就行了。 事實上多數時候,這只是SEO們一廂情願的東西,工程師才不會來鳥你什麼推薦引擎,我們先從一個可執行檔角度,自力更生來把這個SEO方法實施下去。
二.內容分析,關鍵字分析,資料介面設計
一個SEO知道自己網站有多少內容很重要,經常遇到和人說:「你網站這個XX頁面有問題」 「啊?這是什麼頁面啊,我從來沒見過。 」
一般一個網站垂直去分,有首頁,內容頁,清單頁。
內容頁中,又可能分圖片頁,評論頁,文章分頁等等
清單頁中,又可能分頻道頁,產品清單頁,索引頁,專題頁等等。
一般一套頁面對應一套甚至多套php範本。
需要弄清楚這些範本是否在一個架構內,是否公用資料庫,頁面上使用了哪些欄位,最好可以找到對應範本的開發人,如果有條件申請到原始程式碼查看許可權,可以自己看一下。 一個內容聚合的需求可實現度很大程度上取決於上面這些內容,先弄清楚把配料都弄齊全了,再開始做菜,否則巧婦難為無米之炊。
橫向去分可能是更多往business方向考慮,比如有我們有賣線路的,賣門票的,賣酒店的,攻略,使用者圖片,論壇帖子等等各個頻道,各個頻道可能是由不同的部門在負責。 哪些是網站熱賣的,需要熱推(至少你做個SEO的東西得有商業價值,在電商公司非常重要),包括各個頻道是否有人還在運營,一個常年無人打理的頻道,顯然不是一個好的內容源。 一般來說,主要的產品線,和UGC的內容一般是網站內容提供主力。 如果我們想挖掘使用者需求,也可以優先考慮它們。
這個步驟需要花很多時間,複雜一些網站甚至要1個月才能弄清楚網站到底有多少類型的頁面。 在弄清楚上面的問題之後,
接下來,就需要只要知道各類內容有多少數量。
比如多少個SKU,多少文章,多少帖子,多少tags,多少分類等等
這是很多人在做類似工作時考慮不周全的,憑感覺去做。 最後做出來一大堆重複內容的頁面,重複頁面對SEO有多壞的影響就不用再提了。
這個統計內容數量的辦法(從好到壞排序)。
1.讀資料庫
2.通過一些」巧妙」的辦法去數
3.用工具抓
4.靠經驗猜(基本不靠譜)
讀資料庫是最簡單,也是最準確的辦法了,一個select完事
如果沒有資料庫許可權,就要去想辦法知道。 比如文章有多少條,那可以計算分頁數量*每頁文章數量來統計
如果是自增id,那來湊自增id來數;
如果是固定格式資料,比如來北京的圖片,北京的天氣,地區數量*類型來計算,等等;
通過工具抓是很多seo的夢想,無數人問過這樣的問題,有沒有什麼工具可以統計出我網站有多少網頁啊。
抱歉,還真沒有,由於種種網站原因,沒有任何一個工具可以統計出一個中大型網站到底有多少網頁(誰有那這個工具比google,百度爬蟲還NB),太多的爬蟲陷阱,阻礙深入抓取的東西了。 當然,這樣的抓取工具並不是一無是處,對於小型網站,或者特定頻道,甚至特定區塊的抓取,還是有一定作用的。 比如Httrack,Xeun,當然還有我比較喜歡用的火車頭。 python,shell等指令碼語言一直是萬能的。
上面基本就是內容分析的大致情況了,弄清楚內容的種類,數量和運營情況,對SEO是有很多好處的。
三.關鍵字挖掘,清洗與過濾
關鍵字的挖掘說難不難,說簡單也不簡單。
基本每個人都會問,怎麼挖掘關鍵字製作詞庫。 先說說一些常用的手法。
1.baidu/google API
2.採集愛站,chinaz,伯樂等資料
3.採集百度下拉清單(其他搜尋引擎同理)
4.採集百度相關搜索(其他搜尋引擎同理)
5.站內搜索和自然流量關鍵字
6.現成字典/詞庫
講點具體實現的一些注意點,都是在實踐過程中總結出來的東西。 方法說了,基本10個人裡面有1個人去實踐一些就不錯了
1.百度和google的api是要申請的,想辦法搞一個,如果沒有,只能用百度網頁級別的採集,百度競價後臺經常改,所以不是很穩定,這邊友情推薦一個工具HTTP://www.lingdonge.com/(暫時備案中可能打不開 ),作者很nb,搞俠客站群軟體的。 百度API的python的SOAP通信有BUG,連不上(可能我水準太低了T_T),PHP會SOAP通信的話可以自己寫腳本來跑,Google的沒玩過,應該差不多;
2.API是有精確搜索量的資料,所以是詞庫第一資料來源;
3.百度下拉清單反採集做的比較少,採集位址為HTTP://suggestion.baidu.com/su?wd=xxxxxxxxx+一堆參數的,具體調整一下,一個小腳本可以搞定,但是資料深度有限,一般採集2輪後就不用再采了 ,基本采不出新資料了;
4.相關搜索可以用火車頭或者飛達魯金花之類的,因為是採集SERP,反採集這塊要想辦法繞過;
5.站內搜索和自然流量關鍵字去GA搞一下就行,批量匯出不說了。 很簡單,不是用的GA可能會悲劇一些;
6.拼音輸入法詞庫,推薦一個資料網站HTTP://www.datatang.com/,可以看看,裡面會有一些行業詞庫;
7.一些特殊的搜尋引擎,淘寶,youku之類,他們也積攢了大量的資料資訊。
四.分詞/檢索/排序/修正
五.頻道的運營,維護,拓展
六.資料監控