揭開神秘面紗,搜尋引擎原理淺析

來源:互聯網
上載者:User

在浩如煙海的Internet上,特別是其上的Web(World Wide Web全球資訊網)上,不會搜尋,就不會上網。網蟲朋友們,你瞭解搜尋引擎嗎?它們是怎麼工作的?你都使用哪些搜尋引擎?今天我就和大家聊聊搜尋引擎的話題。

  一、搜尋引擎的分類

  獲得網站網頁資料,能夠建立資料庫並提供查詢的系統,我們都可以把它叫做搜尋引擎。按照工作原理的不同,可以把它們分為兩個基本類別:全文檢索搜尋引擎(FullText Search Engine)和分類目錄Directory)。

  全文檢索搜尋引擎的資料庫是依靠一個叫“網路機器人(Spider)”或叫“網路蜘蛛(crawlers)”的軟體,通過網路上的各種連結自動擷取大量網頁資訊內容,並按以定的規則分析整理形成的。Google、百度都是比較典型的全文檢索搜尋引擎系統。

  分類目錄則是通過人工的方式收集整理網站資料形成資料庫的,比如雅虎中國以及國內的搜狐、新浪、網易分類目錄。另外,在網上的一些導航網站,也可以歸屬為原始的分類目錄,比如“網址之家”(http://www.hao123.com/)。

  全文檢索搜尋引擎和分類目錄在使用上各有長短。全文檢索搜尋引擎因為依靠軟體進行,所以資料庫的容量非常龐大,但是,它的查詢結果往往不夠準確;分類目錄依靠人工收集和整理網站,能夠提供更為準確的查詢結果,但收集的內容卻非常有限。為了取長補短,現在的很多搜尋引擎,都同時提供這兩類查詢,一般對全文檢索搜尋引擎的查詢稱為搜尋“所有網站”或“全部網站”,比如Google的全文檢索搜尋(http://www.google.com/intl/zh-CN/);把對分類目錄的查詢稱為搜尋“分類目錄”或搜尋“分類網站”,比如新浪搜尋(http://dir.sina.com.cn/)和雅虎中國搜尋(http://cn.search.yahoo.com/dirsrch/)。

  在網上,對這兩類搜尋引擎進行整合,還產生了其它的搜尋服務,在這裡,我們權且也把它們稱作搜尋引擎,主要有這兩類:

  ⒈元搜尋引擎(META Search Engine)。這類搜尋引擎一般都沒有自己網路機器人及資料庫,它們的搜尋結果是通過調用、控制和最佳化其它多個獨立搜尋引擎的搜尋結果並以統一的格式在同一介面集中顯示。元搜尋引擎雖沒有“網路機器人”或“網路蜘蛛”,也無獨立的索引資料庫,但在檢索請求提交、檢索介面代理和檢索結果顯示等方面,均有自己研發的特色元搜尋技術。比如“metaFisher元搜尋引擎”
(http://www.hsfz.net/fish/),它就調用和整合了Google、Yahoo、AlltheWeb、百度和OpenFind等多家搜尋引擎的資料。

  ⒉整合搜尋引擎(All-in-One Search Page)。整合搜尋引擎是通過網路技術,在一個網頁上連結很多個獨立搜尋引擎,查詢時,點選或指定搜尋引擎,一次輸入,多個搜尋引擎同時查詢,搜尋結果由各搜尋引擎分別以不同頁面顯示,比如“網際瑞士軍刀”(http://free.okey.net/%7Efree/search1.htm)。

  二、搜尋引擎的工作原理

  全文檢索搜尋引擎的“網路機器人”或“網路蜘蛛”是一種網路上的軟體,它遍曆Web空間,能夠掃描一定IP位址範圍內的網站,並沿著網路上的連結從一個網頁到另一個網頁,從一個網站到另一個網站採集網頁資料。它為保證採集的資料最新,還會回訪已抓取過的網頁。網路機器人或網路蜘蛛採集的網頁,還要有其它程式進行分析,根據一定的相關度演算法進行大量的計算建立網頁索引,才能添加到索引資料庫中。我們平時看到的全文檢索搜尋引擎,實際上只是一個搜尋引擎系統的檢索介面,當你輸入關鍵詞進行查詢時,搜尋引擎會從龐大的資料庫中找到符合該關鍵詞的所有相關網頁的索引,並按一定的排名規則呈現給我們。不同的搜尋引擎,網頁索引資料庫不同,排名規則也不盡相同,所以,當我們以同一關鍵詞用不同的搜尋引擎查詢時,搜尋結果也就不盡相同。
【轉自:http://www.pconline.com.cn/pcedu/soft/wl/assist/0408/438518.html】

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.