仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
今天為大家介紹一下搜尋引擎原理。 首先看一個圖......
接下來我們分層講解:
1.www:www指的就是互聯網所有的網頁,全球有多少個網站?2006年統計是為8065萬個網站,在網路迅速發展的這幾年來,直到今天來也得好幾億了吧,而搜尋引擎的任務就是把這些網站搜集並且賦予排名給供使用者搜索。
2.搜集器:搜集器又是大家俗稱為蜘蛛,蜘蛛負責抓取互聯網上的網站,蜘蛛有兩種抓取方式,一種是深度優先,一種是廣度優先。 我的網站為例,深度優先是指以蜘蛛看到網頁的第一的連結開始順序如下圖,知道把第一個連結下面所有的連結全部抓取才開始抓第二個連結,廣度優先是指把第一個頁面的所有的連結全部抓取完畢,開始抓取第二個頁面。
3.控制器:蜘蛛把網頁下載下來後傳入控制器。 控制器負責把這些網頁進行簡單的分析例如消重等等,控制器還負責調遣蜘蛛,安排他們的抓取時間,抓取方式與抓取物件等等。 控制器把所有的url提取出來,分為兩種,一個是以抓取url和未抓取url。 把所有的url的頁面抓取過來後存入原始資料庫。
4.原始資料庫:用來存儲蜘蛛抓取下來的最原始的沒有任何排名的網頁.
5.網頁分析模組:網頁分析模組可以說是最重要的一塊。 這一部分主要是對垃圾網頁的過濾,例如消重,欺詐,違法等一些網站,特別是最近的百度演算法大更新後,更新的也就是這一塊的演算法,主要對採集偽原創和垃圾外鏈給予打擊, 以及對每個網頁的價值和外鏈一些複雜的演算法進行評分也就是我們所說的權重,有了這個權重之後為以後的排序做好了準備。
6.索引子:索引子將網頁分析模組傳遞的有價值的網頁分為正排索引與倒排索引。 正排索引也就是把每個網頁都進行分詞,分成很多關鍵字。 倒排索引反過來把每一個關鍵字列出很多網頁並將它們排序。
7.索引子資料庫:索引資料庫用來存放索引子以關鍵字列出的網頁。
8.檢索器:將使用者所輸入的詞進行分詞,並從索引資料庫中取出網頁,並且進行排序,最後返回給使用者結果。
9.使用者:顧名思義就是線民。
10.使用者介面:可以理解為百度搜尋結果頁面。
11.使用者行為日誌資料庫:使用者行為日誌資料庫用來存放使用者的行為,包括使用者點擊了第幾位,在某一位網站上停留了多少時間,點擊第二個網站的間隔,搜索關鍵字都是什麼等等
12.日誌分析器:這一塊個人認為很重要,搜尋引擎越來越注重使用者體驗,是未來搜尋引擎的發展趨勢所在,這一塊把使用者行為日誌資料庫裡面的使用者行為進行了細緻的分析,對它們的行為對互聯網裡眾多網站進行權重以及排序上進行加減。
本文發表于:鄭州seo HTTP://www.8abd.com/?p=65 轉載請注明連結 謝謝