肖玉強:圖解搜尋引擎工作原理

來源:互聯網
上載者:User

 

  做SEO的,如果不懂搜尋引擎的工作原理是很難恰當開展工作的。前幾天給學生講SEO課程中的搜尋引擎工作原理時,很多同學表示不太懂。後來我畫了搜尋引擎主要工作流程的示意圖給大家,很多同學表示“懂了”。

  我們先來看搜尋引擎的主要工作:頁面收錄、頁面分析、頁面排序及關鍵字查詢。搜尋引擎的工作流程是:頁面收錄——頁面分析——頁面排序——關鍵字查詢。

  一、搜尋引擎工作原理——頁面收錄

  

 

  搜尋引擎工作原理示意圖——頁面收錄流程

  頁面收錄的最終目的是將網站上的內容加入到URL列表,積累URL資源。

  第一步:搜尋引擎的爬行程式(俗稱蜘蛛)發現網站,來到網站上。也就是說網站首先要存在,且能夠被蜘蛛發現。比如濟南seo肖玉強的部落格如果要被搜尋引擎收錄,首先要存在而且要有內容。

  第二步:蜘蛛開始對入口頁面進行抓取,並儲存入口的原始頁面,包含頁面的抓取時間、URL、最後修改時間等。儲存原始頁面的目的是為了下次到來比對頁面是否有更新,蜘蛛喜歡經常更新的網站。

  第三步:提取URL,提取URl包含兩個兩個內容:網域名稱URL和內部URL。網域名稱URL即網站首頁地址,如www.***.com;內部URL即網站內部各頁面的地址,如http://www.***.com/151.html。蜘蛛所提取到的URL資源會持續添加到URL列表。

  二、搜尋引擎工作原理——頁面分析

  在頁面收錄中,搜尋引擎已經抓取到了網站上的URL,接下來,搜尋引擎會對所抓取到的頁面內容進行分析。

  

 

  搜尋引擎工作原理示意圖-頁面分析流程

  在這個過程中,我們看到了兩個“網頁”。第一個“網頁”指的是剛才搜尋引擎已經收錄的URL資源。好,搜尋引擎對頁面的分析正式開始。

  第一步:提取本文資訊。這裡所提取的本文資訊除了包含頁面內容外,也包含頁面的頭部標籤資訊(title\keywords\descrption)等。

  第二步:提取完資訊後,搜尋引擎按照機械分詞法和統計分詞法,將本文資訊切分為若干關鍵詞,這些關鍵片語成了關鍵詞列表。我們大家在搜尋引擎裡尋找內容時往往會輸入關鍵詞尋找,這裡搜尋引擎的工作就是按照一定的規則將內容劃分為詞,以便以後大家搜尋。

  第三步:上一步搜尋引擎已經將本文內容切分為了若干關鍵詞,這些關鍵詞出現的位置、頻率等是不同的,在第三步,搜尋引擎會將關鍵詞逐一記錄、歸類、建立索引。比如,關鍵詞出現的頻率我們建議2%——8%是最為合理的,那麼搜尋引擎在給關鍵詞歸類時,會認為符合2%——8%的關鍵詞是網頁的主關鍵詞,從而在接下來的頁面排序時給予照顧。

  第四步:搜尋引擎為頁面關鍵詞建立索引後,再將這些關鍵詞重新組合,以關鍵詞的形式重新組建一個新的網頁,這個網頁上的關鍵詞是唯一的,全部不重複。比如,我們剛才在第三步時,A關鍵詞出現了三次,在第四步,我們只記錄A關鍵詞1次,在重組後的網頁後,A關鍵詞再無重複。

  至此,搜尋引擎對頁面的分析完成,在這一環節,搜尋引擎完成了對頁面本文資訊的提取、關鍵詞的切分、關鍵詞的索引、以及搜尋引擎角度上的網頁重組。

  三、搜尋引擎工作原理——頁面排序

  在上面一個環節,搜尋引擎完成了對頁面的分析,將頁面以唯一關鍵詞的形式進行了重新組合。接下來開始進入到頁面排序的環節。頁面排序的環節,實際上是由使用者配合來完成的。當使用者在搜尋引擎輸入關鍵詞進行查詢時,搜尋引擎便開始了頁面排序的的工作。我們知道,任意輸入一個關鍵詞就可以在搜尋引擎中找到很多網頁,這些網頁的先後順序是怎樣產生的?影響頁面排序的因素有哪些?

  實際上,決定頁面排序的因素很多,如關鍵詞、頁面相關性、連結權重及使用者行為。

  1、先來看關鍵詞。

  a、 關鍵詞匹配度。我們注意到在全文檢索搜尋引擎中,一般情況下搜尋引擎列表中都會包含我們所輸入的關鍵詞。當我們輸入關鍵詞進行查詢時,搜尋引擎首先會去檢查網頁中是否有該關鍵詞,這是基礎條件。

  b、 接下來,搜尋引擎會去比對頁面中關鍵詞出現的頻率,過高或者過低都不好,最恰當的頻率一般認為是2%——8%左右。

  C、關鍵詞分布。即關鍵字在頁面中出現的位置也會影響頁面的排序。一般認為頁面權重的遞減順序是左上>右上>左>右>左下>右下。

  d、關鍵詞的權重標籤。權重,可以理解為重要性。權重標籤如< b >、< i >、< em >、< h1 >—< h6 >等等這些標籤使得標籤內文字不同於其他文字,搜尋引擎會給予相應權重提升。

  2、連結權重

  內部連結。網站內部頁面之間的連結關係,一般首頁的權重最高。在同等情況下,如果有兩個網站的首頁和內頁進行比較,一般首頁會排在內頁前面。

  外部連結。網站與站外頁面之間的連結關係,通俗的說法叫做“外鏈”。外鏈的數量、品質、相關性都會影響頁面排序。在頁面相關性上,google比baidu更為嚴格,比如,你的網站是做IT的,結果你去連結了很多機械化工類的網站,這時候搜尋引擎會很不喜歡,甚至會認為你惡意添加外部連結。

  預設權重分配。搜尋引擎將頁面被抓取的日期作為一個參考因素,頁面在單位時間內獲得連結的數量越多,品質越高,則該頁面的品質也相對更高。

  3、使用者行為

  使用者對搜尋結果的點擊行為是衡量頁面相關性的因素之一,是完善排序結果、提高排序結果品質的重要補充。

  四、搜尋引擎工作原理——關鍵詞查詢

  

 

  搜尋引擎工作原理——關鍵詞查詢

  第一步:使用者輸入關鍵詞進行查詢。

  第二步:搜尋引擎接到使用者關鍵詞指令,將使用者的關鍵詞再次切分。有同學問為什麼還要切分呢?這是因為使用者所輸入的關鍵詞可能會和搜尋引擎詞典裡的關鍵詞不符合,這時候搜尋引擎會將使用者的詞再次切分,尤其是長尾關鍵詞。如使用者搜尋:肖玉強的部落格。這個詞搜尋引擎詞典裡是沒有的,那麼這個詞會被切分為“肖玉強”“的”“部落格”三個詞之後再去網頁資源中進行匹配。

  第三步:搜尋引擎將關鍵詞切分後,進入網頁資源中進行匹配,查詢合適內容,即“關鍵詞反向索引表”。如果網頁資源中有對應關鍵詞,則進行頁面分析,按照頁面權重進行網頁排序。如果沒有對應關鍵詞,則返回給客戶一個“空列表”。比如“很抱歉,沒有找到你要查詢的內容”。

  整個搜尋引擎的工作過程,我們可以以做飯舉例。比如我們現在要做西紅柿炒雞蛋,接下來開始。

  第一步,西紅柿和雞蛋,以及配料要有,這裡對應頁面收錄;

  第二步,有了西紅柿、雞蛋、配料,接下來我們要分析一下做菜的順序,是先放油呢還是先放雞蛋再放油呢?還是放了西紅柿雞蛋再放油呢?對這個項目進行分析,即搜尋引擎工作的第二步:頁面分析;

  第三步頁面排序,分析好了這個菜怎麼做,接下來要動手了,先刷鍋熱鍋,再放油,再繼續……這是個合理的順序,先做什麼,後做什麼。

  第四步:菜做好了,上桌了,你可能會選擇先吃雞蛋,也可能會先吃西紅柿,哈哈,這就對應了關鍵詞查詢。如果你要在西紅柿雞蛋裡找塊肉吃,抱歉,沒有,這就是關鍵詞的空列表了。

  對於例子,請酌情參考。明白了搜尋引擎的工作原理就好了。

  我的QQ:2284939775,歡迎交流。

  本文首發:肖玉強的部落格http://www.xiaoyuqiang.com/151.html 專註濟南SEO研究。轉載請註明出處。



相關文章

E-Commerce Solutions

Leverage the same tools powering the Alibaba Ecosystem

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。