仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
做互聯網已經2年,一直是做技術的,在網路運營上卻是一片空白,說來真是慚愧的很。 前一陣子決定自己做個站練練手,為將來從技術轉向運營鋪一下路。
由於從來沒有做過運營和網站推廣,運營方面的朋友認識的不是很多,因此做交換連結的可能性不大。 而自己剛做站,就那麼一點點流量做交換也實在對不起人家。 思前想後,對我來說最快的也是最可行的網站運營方法就是seo了,而且用seo來做網站運營和網站推廣跟技術更近一點,上手也比較快。 於是看了很多seo的資料,不管是seo優化網站的,還是用seo來作弊搞流量的,能看的都看了。 但是寫這篇文章的目的不是告訴大家如何用seo優化更不是教大家如何用seo作弊,畢竟我也是剛剛學,而且seo的教材和資料已經相當多了。 我寫的肯定也沒有人家寫的好。 我只是想用我的大米站的一些資料來對搜尋引擎和seo建立一些假設,然後推測一些結論,最後大家再討論一下,希望可以共同得到進步。
好了,廢話不說了,先說一下我大米站的基本情況。 我的站是一個小說導航網站(多迷小說之家 HTTP://www.duomimi.com/),基本思想就是把各大小說網站的小說資料都採集下來,然後分類整理放到我的網站上, 使用者通過訪問我的網站就可以同時搜索到幾個大小說網站的所有小說資料並點擊觀看,同時也可以看到各站的排名,推薦,更新等資訊。 好了,不多說了,不然大家該以為我是在AD了。
首先是網站開發,介面仿照hao123,採用最簡單方便的asp+access,也是因為我的400mb的虛擬空間空間只支援asp和access,系統一共只有4個頁面,分別是index.asp(主頁)、list.asp(清單頁 )、search.asp(搜尋網頁)\bookReader.asp(詳細頁),一天的時間搞定。 其中主頁還做了一個模版用來生成靜態頁(由於伺服器空間有限,不能把所有的頁面都生成靜態頁,遺憾啊! 把動態頁生成靜態頁這點很重要,搜尋引擎更喜歡靜態頁,這點在所有的搜尋引擎官方說明中都有說明的)。 接下來是資料獲取,先選定了5個小說網站,分別是起點中文、小說閱讀、紅袖、瀟湘、新浪讀書,然後寫了個程式,自動把資料獲取下來並保存到sqlserver資料庫上,用了2天的時間。 大概採集了190000多條吧,最後把資料再手動導入到access上(這裡也有個小插曲,由於access資料庫是單檔單使用者的,功能非常有限。 不能寫預存程序,所以翻頁只能用asp的Recordset物件,每次把所有符合條件的結果都放到記憶體中,然後再分頁,我的19萬資料每次都放到記憶體中,然後再從中拿出20條來,速度和佔用記憶體量可想而知。 所以這裡教大家一個小技巧,就是把每條要分頁的資料都加一個欄位用來表示他出現的頁數,這樣每次只需要尋找這個頁的資料就可以了,而且以後資料增加或者減少,只需要用畢加樹演算法重新改一下頁欄位問題就解決了。 另一個頭痛的問題是access沒有全文檢索。 所以資料搜索基本靠like,我做過測試,資料量超過2萬就有可能出現記憶體溢出的現象,解決這個問題的辦法沒有別的,只有自己建倒排索引。 這是我在用access做大資料量處理時遇到的兩個問題和解決辦法,算是抛磚引玉吧)
網站做好,資料獲取完畢,裝上51la免費流量統計,做個搜尋引擎跟蹤器,就開始做試驗了。 上線20多天,沒有做過什麼推廣,只在貼吧中發過帖子(很幸運有個帖子被頂起來了)。 流量中,60%是百度搜尋引擎來的,16%回頭客,16%貼吧(就是那個被頂起來的帖子),其它的是其它搜尋引擎來的。 基本統計資訊和收錄記錄如下圖:
(這裡有個問題要說一下,我的功能變數名稱和空間是去年9月份前後申請的,但是放了一個垃圾系統就再也沒有管。 所以我在做多迷之前這個功能變數名稱已經被bd和gg收錄了,但是只有不到10頁的收錄量,所以我沒有花太多的時間讓搜尋引擎收錄我,只是重新讓搜尋引擎重新檢索我的網站而已)
再給大家看兩個數據,是我記錄的bd和gg的搜索機器人(bot)每天取我網站的次數。 (如圖)
ok!現在開始分析,首先說一下網頁的設計,沒有frame,沒有沒必要的ajax,所有內連結都加上了title,沒有隱藏和堆砌關鍵字,沒有同色連結,就是說沒有進行seo作弊。 (注:以下假設和分析只代我目前的一些看法,不一定是正確的,希望大家也可以分析一下,指出我不對的地方)
現象1
我的title中是這麼寫的——duomimi 多迷小說之家---青春校園|散文|玄幻小說|小說連載|靈異恐怖|短篇小說|
靈異推理|童話寓言|言情小說|網路小說|歷史武俠|武俠小說。 搜尋結果顯示我在「青春校園短篇小說」這個長尾
關鍵字中是第一位。
假設:
頁面關鍵字主要根據title標籤中的關鍵字定,但是title中的關鍵字堆砌沒有用,只會取第一個關鍵字做為你網頁的主關鍵字並在搜尋引擎的索引上建立相關性排序。
現象2
同樣的時間bd收錄1170,gg收錄17。 相差甚多
假設:
前人說的是對的,bd對新站感興趣,而gg對新站有考驗期的,考驗時間肯定在20天以上!
現象3
bd機器人每天搜索的次數變化很大,而gg每天的搜索的次數比較穩定。 但是bd搜索的頁數和收錄的頁數差不多,而gg搜索的頁數和收錄的差很遠
假設:
bd對於新站是來著不懼,有多少收多少。 只要是爬下來的頁,只要沒有作弊,都收錄上去先。 而gg爬的頁不會馬上放上去。 是扔了還是放在什麼地方了就不知道了。
現象4
假設主頁的深度是0,主頁上的內連結是1,深度為1的頁上的內連結為2以此類推,深度越潛的頁面搜索的次數越多
假設:搜尋引擎對深度潛的頁面更感興趣,可能使用這種方法來判斷更新的資料,當確定潛層頁面的資料都沒有
變化了才繼續往下爬。 所以做站一定要時常更新,而且把更新的東西放得越潛越好,不要藏起來。
現象5
搜尋引擎收錄的頁面中我的search頁面比例最大(bookreader頁是我後來加上去的以前沒有)。
假設:搜尋引擎不喜歡清單頁,更喜歡詳細頁,作為判定的方法估計主要是通過內連結的數量來判斷,我的search頁的內連結很少,基本都是外連結。 所以它把我的search頁當成是詳細頁了。
現象6
我在期間加了一個頁面bookreader頁,使用者點擊小說名稱後不再直接打開小說頁面,而是進入我的bookreader頁面,就是說我把以前的外連接變成了內連結。 結果第二天,幾乎所有的搜尋引擎的搜索數量都變少了。
假設:搜尋引擎很討厭對頁面內連結的改變。 所以儘量不要隨便改動頁面的內連結。
現象7
每次搜索一次list頁會隔比較長的時間再搜索下一個頁,而bookreader和search頁則會相隔的時間較短。
假設:由於list的內連結多,而bookreader和search頁內連結多,所以可能bd每天收錄的新連結數是有一個極限的。 就是說,每天就收你這麼多個連結,而這個數量應該對不同的站不同,我計算一下,我的站應該是在3000~4000左右
現象8
今天bd對我的搜索次數忽然有幾十變成1000多
假設:現在還沒有弄清楚怎麼回事,要看以後的變化,可以肯定的是我沒有對站做過什麼改動,只是每5分鐘更新一次主頁而已。 難道是對我的站升級了??
目前為止就想到這8個現象,以後我會繼續跟蹤並回帖分析的。 算是抛磚引玉吧,希望大家一起來討論