大家好,我是顏江峰,上一篇文章《致青春:寫給新手SEO們的一些話》發表以來,近期陸陸續續有不少朋友加了我的QQ:793030022。寫完這篇文章我發現內容太多了,時間限制也沒能寫更加詳細,寫一篇文章有時候打字要打接近兩個小時,還請大家體諒一下。
最近時常接受到了一些朋友的諮詢,尤其是打算接觸這個行業的朋友。其中有一位山西的朋友,問我SEO有沒有學曆要求。我回答SEO對學曆要求不高,只要你有一顆堅持和肯學習的心。對方又告訴我,他不懂編程,不會代碼,會是障礙嗎?這位朋友讓我想起筆者初時對SEO的抗拒,就是認為自己對不懂,才不願意接觸SEO,認為自己對這方面沒有優勢。當初看到那本書第一頁就告訴我:SEO不需要會編程,我眼睛瞬間明亮起來。順便說一句,做SEO以及網路營銷師,基本的html、div+CSS和JS要懂一些的。
這篇文章,我想先簡單的說一下搜尋引擎的原理,其實作為一個SEO,就必須要熟悉搜尋引擎的原理。只要你熟悉了原理,各種最佳化技巧你才能更好的明白和理解為什麼要這麼做。
我們SEO裡面說的蜘蛛,是搜尋引擎的一種程式,用來爬行和訪問頁面,百度蜘蛛是:baiduspider,Google稱為機器人:googlebot。
蜘蛛會根據頁面上的連結爬行,從一個頁面爬行到另一個頁面,就是通過這些連結。蜘蛛的爬行分為廣度優先和深度優先。理論上說,每一種方法,都能夠讓蜘蛛爬行完所有的頁面,可是我們實際情況中,時間不是無限的,不可能爬行完互連網上面所有的頁面。
作為一名SEO人員,如果希望自己的網站能更多的被蜘蛛收錄,就必須想辦法讓蜘蛛能夠來抓取你的頁面。如果不能夠抓取所有的頁面,起碼也要讓蜘蛛抓取你的重要頁面。那麼,蜘蛛是怎麼樣去判斷頁面的重要性呢。大概有這幾方面的因素:
更新度:蜘蛛爬行一次網站之後,就會把這個頁面的資料存放區,當下一次爬行的時候,如果發現這個頁面還是跟上次一樣的。表明這個頁面沒有更新,蜘蛛就會認為沒有必要經常抓取和爬行,反正這個頁面每次來都是一樣的內容。如果每次蜘蛛來都發現有更新,那麼就會來得比較頻繁。
匯入連結:一個頁面,要被蜘蛛知道,還必須要有匯入連結匯入到這個頁面。蜘蛛都是沿著連結爬行的,否則的話蜘蛛無法知道你的頁面的存在,也就不用談抓取和收錄了。
做SEO的都知道一個原則,就是每個頁面與首頁的點擊距離最好是2-3次點擊。一般網站權重最高的地方是首頁,有一個原則是,一個頁面離首頁的距離越近,這個頁面的權重就更高,被蜘蛛爬行的機率也更大。這裡也提醒大家,不妨把某些重要頁面的url,呈現在首頁。
蜘蛛抓取到的內容,會儲存起來。過程中,會檢測、刪除複製內容。如果你的網站權重太低,被蜘蛛發現了大量的轉載內容,蜘蛛可能都不會再爬行你的網站。因為搜尋引擎很不喜歡重複內容,這樣會造成它無效工作的增加。
抓取到內容之後,搜尋引擎會進行一系列的處理。我們查詢內容的時候,搜尋引擎已經進行了一系列的計算,然後根據這些計算排名。蜘蛛又會進行哪些處理呢?
蜘蛛抓取到內容首先會進行一個過濾,選出能夠參與排名的內容——也就是可見文字。除此之外,還會提取Meta、alt、錨文字等包含文字資訊的一些有用代碼。
分詞,這個主要是針對百度,一個句子中的字都是連一起的,搜尋引擎必須想辦法分別哪些是一個片語。比如:“小商品批發”,就有可能被分解為“小商品”和“批發”兩個詞。針對這種現象,我們能做的是給關鍵詞加粗或者加上h標籤,比如:小商品批發。所以加粗或者加上h標籤,還有一個作用是協助蜘蛛判斷這是一個片語。
去除的“的”、“地”、“得”等詞,去除一些感歎詞,去除一些副詞或者介詞等。
消除雜訊,著作權資訊、廣告等等這些影響頁面主題的內容。
之前的兩步稍微帶過,這裡要值得一提的是去重步驟。同樣的一篇文章,可能會被發表在不同的地方不同的網址。搜尋引擎並不喜歡這些重複的內容。很多時候搜尋引擎希望只返回相同文章的一篇。蜘蛛會進行重複內容的識別。這個步驟就稱之為“去重”。而且搜尋引擎的“去重”水準已經達到了比較先進的地步,絕對不是我們某些人理所當然的那樣。他會從頁面內容中選取最有代表的關鍵詞,進行各種計算和分析。所以一些網站所寫的偽原創,只是改變一下段落順序,稍微替換幾個詞,是無法避免蜘蛛的識別的。有的朋友很無辜的說,我天天都更新文章,為什麼我的站還是沒有收錄。或者,為什麼我天天更新文章,還是被降權了。
索引之後,會計算連結關係,比如匯入連結和錨文本等等。然後搜尋引擎還會處理一些特殊的檔案,比如:PDF、Word、PPT、TXT等。筆者記得以前有一位站長,就是用百度文庫的錨文字,做起來的。現在百度文庫好像權重有所降低,不過特殊檔案處理,搜尋引擎並不能識別視頻和圖片還有Flash,無法判斷這些東西所表達的意思。這也就是為什麼網站不要加太多Flash和視頻,也是為什麼要給圖片加alt標籤。因為蜘蛛是靠alt標籤這個描述性標籤,判斷圖片的內容。
然後就是排名了,排名過程中,會進行中文分詞。這裡我打算舉例一下title關鍵詞的選擇,我們選擇關鍵詞的時候,要考慮到把一個關鍵詞分開還能夠組合成新的關鍵詞,這就是為了利用到百度的分詞原理。
搜尋引擎會根據使用者的搜尋,匹配出最好的關鍵詞。可是那麼多檔案,蜘蛛到底要把哪一個呈現給使用者看呢。首先是相關性,大家可以理解為頁面關鍵詞密度。除了這個頁面的相關性之外,這裡就要考慮到頁面的權重問題。匹配的數目過於龐大的時候,蜘蛛不可能也沒必要對所有的頁面進行全部計算,所以就會選擇它認為最重要的頁面(權重高的頁面)進行相關性的計算。
搜尋引擎再經過一些調整,把結果呈現在大家面前。
有一位朋友問我,我不是電腦專業畢業的,請問我也能從事這個行業麼。呵呵,江峰念大學的時候,也不是電腦專業畢業的……
值得一提的是還有一位筆者老家的宗親聯絡到了我,還鼓勵我寫得不錯,江峰慚愧,上一篇文章,只是一時感慨,並未分享任何乾貨。所以也在思索,這篇文章,能夠給新手朋友們提供一些什麼樣真正有用的內容。
其實我一直接觸的都是國內的SEO,也就是百度的最佳化。前幾天跟一位朋友的交流,讓我意識到某些事情的重要性,於是又從網路上購得一本專業書籍,是國外幾位大神編寫的專門針對google的最佳化寶典。在撰寫這篇文章的時候,想起有一本很棒的書在路上,江峰還是很開心的。
朋友跟我說,這本書他下載過電子書,不過看得眼睛疼。根據我的親身經曆,看技術類型的,還就必須買書看,pdf和txt根本不方便,電子書用來看看小說還差不多。相信來到A5的朋友,一部分是站長和一些SEOer之外,還有那麼一部分人是新手,渴望在這裡學習到知識。可是我還是建議大家去買本這方面的書看,你花的這幾十元錢,絕對會物超所值。我親身感覺,網路上看那些零碎的教程,真沒看書有效果,看書比較系統。別人寫的文章,每個人風格和領悟都不一樣。看了很亂。
文章來源:http://www.now199.com,轉載請註明出處,寫文章很不容易。