仲介交易 SEO診斷 淘寶客 雲主機 技術大廳
做SEO的,如果不懂搜尋引擎的工作原理是很難恰當開展工作的。 前幾天給學生講SEO課程中的搜尋引擎工作原理時,很多同學表示不太懂。 後來我畫了搜尋引擎主要工作流程的示意圖給大家,很多同學表示「懂了」。
我們先來看搜尋引擎的主要工作:頁面收錄、頁面分析、頁面排序及關鍵字查詢。 搜尋引擎的工作流程是:頁面收錄——頁面分析——頁面排序——關鍵字查詢。
一、搜尋引擎工作原理——頁面收錄
搜尋引擎工作原理示意圖——頁面收錄流程
頁面收錄的最終目的是將網站上的內容加入到URL清單,積累URL資源。
第一步:搜尋引擎的爬行程式(俗稱蜘蛛)發現網站,來到網站上。 也就是說網站首先要存在,且能夠被蜘蛛發現。 比如濟南seo肖玉強的博客如果要被搜尋引擎收錄,首先要存在而且要有內容。
第二步:蜘蛛開始對入口頁面進行抓取,並存儲入口的原始頁面,包含頁面的抓取時間、URL、最後修改時間等。 存儲原始頁面的目的是為了下次到來比對頁面是否有更新,蜘蛛喜歡經常更新的網站。
第三步:提取URL,提取URl包含兩個兩個內容:功能變數名稱URL和內部URL。 功能變數名稱URL即網站首頁位址,如www.***.com;內部URL即網站內部各頁面的位址,如HTTP://www.***.com/151.html。 蜘蛛所提取到的URL資源會持續添加到URL清單。
二、搜尋引擎工作原理——頁面分析
在頁面收錄中,搜尋引擎已經抓取到了網站上的URL,接下來,搜尋引擎會對所抓取到的頁面內容進行分析。
搜尋引擎工作原理示意圖-頁面分析流程
在這個過程中,我們看到了兩個「網頁」。 第一個「網頁」指的是剛才搜尋引擎已經收錄的URL資源。 好,搜尋引擎對頁面的分析正式開始。
第一步:提取正文資訊。 這裡所提取的正文資訊除了包含頁面內容外,也包含頁面的頭部標籤資訊(title\keywords\descrption)等。
第二步:提取完資訊後,搜尋引擎按照機械分詞法和統計分詞法,將正文資訊切分為若干關鍵字,這些關鍵字組成了關鍵字清單。 我們大家在搜尋引擎裡查找內容時往往會輸入關鍵字查找,這裡搜尋引擎的工作就是按照一定的規則將內容劃分為詞,以便以後大家搜索。
第三步:上一步搜尋引擎已經將正文內容切分為了若干關鍵字,這些關鍵字出現的位置、頻率等是不同的,在第三步,搜尋引擎會將關鍵字逐一記錄、歸類、建立索引。 比如,關鍵字出現的頻率我們建議2%——8%是最為合理的,那麼搜尋引擎在給關鍵字歸類時,會認為符合2%——8%的關鍵字是網頁的主關鍵字,從而在接下來的頁面排序時給予照顧。
第四步:搜尋引擎為頁面關鍵字建立索引後,再將這些關鍵字重新組合,以關鍵字的形式重新組建一個新的網頁,這個網頁上的關鍵字是唯一的,全部不重複。 比如,我們剛才在第三步時,A關鍵字出現了三次,在第四步,我們只記錄A關鍵字1次,在重組後的網頁後,A關鍵字再無重複。
至此,搜尋引擎對頁面的分析完成,在這一環節,搜尋引擎完成了對頁面正文資訊的提取、關鍵字的切分、關鍵字的索引、以及搜尋引擎角度上的網頁重組。
三、搜尋引擎工作原理——頁面排序
在上面一個環節,搜尋引擎完成了對頁面的分析,將頁面以唯一關鍵字的形式進行了重新組合。 接下來開始進入到頁面排序的環節。 頁面排序的環節,實際上是由使用者配合來完成的。 當使用者在搜尋引擎輸入關鍵字進行查詢時,搜尋引擎便開始了頁面排序的的工作。 我們知道,任意輸入一個關鍵字就可以在搜尋引擎中找到很多網頁,這些網頁的先後順序是怎樣產生的?影響頁面排序的因素有哪些?
實際上,決定頁面排序的因素很多,如關鍵字、頁面相關性、連結權重及使用者行為。
1、先來看關鍵字。
a、 關鍵字匹配度。 我們注意到在全文搜尋引擎中,一般情況下搜尋引擎清單中都會包含我們所輸入的關鍵字。 當我們輸入關鍵字進行查詢時,搜尋引擎首先會去檢查網頁中是否有該關鍵字,這是基礎條件。
b、 接下來,搜尋引擎會去比對頁面中關鍵字出現的頻率,過高或者過低都不好,最恰當的頻率一般認為是2%——8%左右。
C、關鍵字分佈。 即關鍵字在頁面中出現的位置也會影響頁面的排序。 一般認為頁面權重的遞減順序是左上>右上>左>右>左下>右下。
d、關鍵字的權重標籤。 權重,可以理解為重要性。 權重標籤如< b >、< i >、< em >、< h1 >—< h6 >等等這些標籤使得標籤內文字不同于其他文字,搜尋引擎會給予相應權重提升。
2、連結權重
內部連結。 網站內部頁面之間的連結關係,一般首頁的權重最高。 在同等情況下,如果有兩個網站的首頁和內頁進行比較,一般首頁會排在內頁前面。
外部連結。 網站與站外頁面之間的連結關係,通俗的說法叫做「外鏈」。 外鏈的數量、品質、相關性都會影響頁面排序。 在頁面相關性上,google比baidu更為嚴格,比如,你的網站是做IT的,結果你去連結了很多機械化工類的網站,這時候搜尋引擎會很不喜歡,甚至會認為你惡意添加外部連結。
預設權重分配。 搜尋引擎將頁面被抓取的日期作為一個參考因素,頁面在單位時間內獲得連結的數量越多,品質越高,則該頁面的品質也相對更高。
3、使用者行為
使用者對搜尋結果的點擊行為是衡量頁面相關性的因素之一,是完善排序結果、提高排序結果品質的重要補充。
四、搜尋引擎工作原理——關鍵字查詢
搜尋引擎工作原理——關鍵字查詢
第一步:使用者輸入關鍵字進行查詢。
第二步:搜尋引擎接到使用者關鍵字指令,將使用者的關鍵字再次切分。 有同學問為什麼還要切分呢?這是因為使用者所輸入的關鍵字可能會和搜尋引擎詞典裡的關鍵字不符合,這時候搜尋引擎會將使用者的詞再次切分,尤其是長尾關鍵字。 如使用者搜索:肖玉強的博客。 這個詞搜尋引擎詞典裡是沒有的,那麼這個詞會被切分為「肖玉強」「的」「博客」三個詞之後再去網頁資源中進行匹配。
第三步:搜尋引擎將關鍵字切分後,進入網頁資源中進行匹配,查詢合適內容,即「關鍵字反向索引表」。 如果網頁資源中有對應關鍵字,則進行頁面分析,按照頁面權重進行網頁排序。 如果沒有對應關鍵字,則返回給客戶一個「空清單」。 比如「很抱歉,沒有找到你要查詢的內容」。
整個搜尋引擎的工作過程,我們可以以做飯舉例。 比如我們現在要做番茄炒雞蛋,接下來開始。
第一步,番茄和雞蛋,以及配料要有,這裡對應頁面收錄;
第二步,有了番茄、雞蛋、配料,接下來我們要分析一下做菜的順序,是先放油呢還是先放雞蛋再放油呢?還是放了番茄雞蛋再放油呢?對這個專案進行分析,即搜尋引擎工作的第二步:頁面分析;
第三步頁面排序,分析好了這個菜怎麼做,接下來要動手了,先刷鍋熱鍋,再放油,再繼續...... 這是個合理的順序,先做什麼,後做什麼。
第四步:菜做好了,上桌了,你可能會選擇先吃雞蛋,也可能會先吃番茄,哈哈,這就對應了關鍵字查詢。 如果你要在番茄雞蛋裡找塊肉吃,抱歉,沒有,這就是關鍵字的空清單了。
對於例子,請酌情參考。 明白了搜尋引擎的工作原理就好了。
我的QQ:2284939775,歡迎交流。
本文首發:肖玉強的博客HTTP://www.xiaoyuqiang.com/151.html 專注濟南SEO研究。 轉載請注明出處。