致青春2:必須從搜尋引擎原理開始學習SEO

來源:互聯網
上載者:User

仲介交易 SEO診斷 淘寶客 雲主機 技術大廳

大家好,我是顏江峰,上一篇文章《致青春:寫給新手SEO們的一些話》發表以來,近期陸陸續續有不少朋友加了我的QQ:793030022。 寫完這篇文章我發現內容太多了,時間限制也沒能寫更加詳細,寫一篇文章有時候打字要打接近兩個小時,還請大家體諒一下。

最近時常接受到了一些朋友的諮詢,尤其是打算接觸這個行業的朋友。 其中有一位山西的朋友,問我SEO有沒有學歷要求。 我回答SEO對學歷要求不高,只要你有一顆堅持和肯學習的心。 對方又告訴我,他不懂程式設計,不會代碼,會是障礙嗎?這位朋友讓我想起筆者初時對SEO的抗拒,就是認為自己對不懂,才不願意接觸SEO,認為自己對這方面沒有優勢。 當初看到那本書第一頁就告訴我:SEO不需要會程式設計,我眼睛瞬間明亮起來。 順便說一句,做SEO以及網路行銷師,基本的html、div+CSS和JS要懂一些的。

這篇文章,我想先簡單的說一下搜尋引擎的原理,其實作為一個SEO,就必須要熟悉搜尋引擎的原理。 只要你熟悉了原理,各種優化技巧你才能更好的明白和理解為什麼要這麼做。

我們SEO裡面說的蜘蛛,是搜尋引擎的一種程式,用來爬行和訪問頁面,百度蜘蛛是:baiduspider,谷歌稱為機器人:googlebot。

蜘蛛會根據頁面上的連結爬行,從一個頁面爬行到另一個頁面,就是通過這些連結。 蜘蛛的爬行分為廣度優先和深度優先。 理論上說,每一種方法,都能夠讓蜘蛛爬行完所有的頁面,可是我們實際情況中,時間不是無限的,不可能爬行完互聯網上面所有的頁面。

作為一名SEO人員,如果希望自己的網站能更多的被蜘蛛收錄,就必須想辦法讓蜘蛛能夠來抓取你的頁面。 如果不能夠抓取所有的頁面,起碼也要讓蜘蛛抓取你的重要頁面。 那麼,蜘蛛是怎麼樣去判斷頁面的重要性呢。 大概有這幾方面的因素:

更新度:蜘蛛爬行一次網站之後,就會把這個頁面的資料存儲,當下一次爬行的時候,如果發現這個頁面還是跟上次一樣的。 表明這個頁面沒有更新,蜘蛛就會認為沒有必要經常抓取和爬行,反正這個頁面每次來都是一樣的內容。 如果每次蜘蛛來都發現有更新,那麼就會來得比較頻繁。

導入連結:一個頁面,要被蜘蛛知道,還必須要有導入連結導入到這個頁面。 蜘蛛都是沿著連結爬行的,否則的話蜘蛛無法知道你的頁面的存在,也就不用談抓取和收錄了。

做SEO的都知道一個原則,就是每個頁面與首頁的點擊距離最好是2-3次點擊。 一般網站權重最高的地方是首頁,有一個原則是,一個頁面離首頁的距離越近,這個頁面的權重就更高,被蜘蛛爬行的概率也更大。 這裡也提醒大家,不妨把某些重要頁面的url,呈現在首頁。

蜘蛛抓取到的內容,會存儲起來。 過程中,會檢測、刪除複製內容。 如果你的網站權重太低,被蜘蛛發現了大量的轉載內容,蜘蛛可能都不會再爬行你的網站。 因為搜尋引擎很不喜歡重複內容,這樣會造成它無效工作的增加。

抓取到內容之後,搜尋引擎會進行一系列的處理。 我們查詢內容的時候,搜尋引擎已經進行了一系列的計算,然後根據這些計算排名。 蜘蛛又會進行哪些處理呢?

蜘蛛抓取到內容首先會進行一個過濾,選出能夠參與排名的內容——也就是可見文字。 除此之外,還會提取Meta、alt、錨文字等包含文字資訊的一些有用代碼。

分詞,這個主要是針對百度,一個句子中的字都是連一起的,搜尋引擎必須想辦法分別哪些是一個片語。 比如:「小商品批發」,就有可能被分解為「小商品」和「批發」兩個詞。 針對這種現象,我們能做的是給關鍵字加粗或者加上h標籤,比如:小商品批發。 所以加粗或者加上h標籤,還有一個作用是説明蜘蛛判斷這是一個片語。

去除的「的」、「地」、「得」等詞,去除一些感歎詞,去除一些副詞或者介詞等。

消除雜訊,版權資訊、廣告等等這些影響頁面主題的內容。

之前的兩步稍微帶過,這裡要值得一提的是去重步驟。 同樣的一篇文章,可能會被發表在不同的地方不同的網址。 搜尋引擎並不喜歡這些重複的內容。 很多時候搜尋引擎希望只返回相同文章的一篇。 蜘蛛會進行重複內容的識別。 這個步驟就稱之為「去重」。 而且搜尋引擎的「去重」水準已經達到了比較先進的地步,絕對不是我們某些人理所當然的那樣。 他會從頁面內容中選取最有代表的關鍵字,進行各種計算和分析。 所以一些網站所寫的偽原創,只是改變一下段落順序,稍微替換幾個詞,是無法避免蜘蛛的識別的。 有的朋友很無辜的說,我天天都更新文章,為什麼我的站還是沒有收錄。 或者,為什麼我天天更新文章,還是被降權了。

索引之後,會計算連結關係,比如導入連結和錨文本等等。 然後搜尋引擎還會處理一些特殊的檔,比如:PDF、Word、PPT、TXT等。 筆者記得以前有一位站長,就是用百度文庫的錨文字,做起來的。 現在百度文庫好像權重有所降低,不過特殊檔處理,搜尋引擎並不能識別視頻和圖片還有Flash,無法判斷這些東西所表達的意思。 這也就是為什麼網站不要加太多Flash和視頻,也是為什麼要給圖片加alt標籤。 因為蜘蛛是靠alt標籤這個描述性標籤,判斷圖片的內容。

然後就是排名了,排名過程中,會進行中文分詞。 這裡我打算舉例一下title關鍵字的選擇,我們選擇關鍵字的時候,要考慮到把一個關鍵字分開還能夠組合成新的關鍵字,這就是為了利用到百度的分詞原理。

搜尋引擎會根據使用者的搜索,匹配出最好的關鍵字。 可是那麼多檔,蜘蛛到底要把哪一個呈現給使用者看呢。 首先是相關性,大家可以理解為頁面關鍵字密度。 除了這個頁面的相關性之外,這裡就要考慮到頁面的權重問題。 匹配的數目過於龐大的時候,蜘蛛不可能也沒必要對所有的頁面進行全部計算,所以就會選擇它認為最重要的頁面(權重高的頁面)進行相關性的計算。

搜尋引擎再經過一些調整,把結果呈現在大家面前。

有一位朋友問我,我不是電腦專業畢業的,請問我也能從事這個行業麼。 呵呵,江峰念大學的時候,也不是電腦專業畢業的......

值得一提的是還有一位筆者老家的宗親聯繫到了我,還鼓勵我寫得不錯,江峰慚愧,上一篇文章,只是一時感慨,並未分享任何干貨。 所以也在思索,這篇文章,能夠給新手朋友們提供一些什麼樣真正有用的內容。

其實我一直接觸的都是國內的SEO,也就是百度的優化。 前幾天跟一位朋友的交流,讓我意識到某些事情的重要性,於是又從網路上購得一本專業書籍,是國外幾位大神編寫的專門針對google的優化寶典。 在撰寫這篇文章的時候,想起有一本很棒的書在路上,江峰還是很開心的。

朋友跟我說,這本書他下載過電子書,不過看得眼睛疼。 根據我的親身經歷,看技術類型的,還就必須買書看,pdf和txt根本不方便,電子書用來看看小說還差不多。 相信來到A5的朋友,一部分是站長和一些SEOer之外,還有那麼一部分人是新手,渴望在這裡學習到知識。 可是我還是建議大家去買本這方面的書看,你花的這幾十元錢,絕對會物超所值。 我親身感覺,網路上看那些零碎的教程,真沒看書有效果,看書比較系統。 別人寫的帖子,每個人風格和領悟都不一樣。 看了很亂。

文章來源:HTTP://www.now199.com,轉載請注明出處,寫帖子很不容易。

相關閱讀:

A5報名優惠:2013年GOMX全球網路行銷大會

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.