搜尋引擎技術深度研究

來源:互聯網
上載者:User
關鍵字 網路蜘蛛

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

隨著網路科學技術的高速發展,人們對網路搜尋引擎的依賴越來越強,尤其是在當今網路資源豐富,網路資訊需求量日益上升的二十一世紀,搜索技術佔據了互聯網的一個非常重要的制高點。 現在人們經常用搜尋引擎來搜索多媒體資料、最新資訊和地圖等各種資料。

第一、 搜尋引擎的基本原理

搜尋引擎是一個能夠獲得網站網頁資料,建立資料庫並提供查詢的系統。

1.1搜尋引擎的結構

網頁搜集就是通過網路蜘蛛去網頁上爬行,並且沿著每個網頁中的連結去爬行其他網頁,最終可以爬行到很多網頁,並將這些網頁壓縮處理,存儲到知識庫當中。 網路編目程式會不斷的對整個網路進行爬行,以保證資訊的及時性和有效性。

預處理是對搜集到的網頁進行連結分析,網頁重要程度計算以及關鍵字提取,建立一個索引資料庫,這個資料庫的體系結構必須利於搜索,而且包含的資訊要儘量全面。

服務指的是為使用者提供服務,當使用者輸入關鍵字後,按照關鍵字在索引資料庫中快速的找到相關的資訊,返回給使用者。

1.2搜尋引擎的分類

搜尋引擎可以分為三類:全文檢索搜尋引擎、目錄搜尋引擎、元搜尋引擎。

全文搜尋引擎是通過網路蜘蛛去爬行各個網頁,將其資訊提取出來並存入一個資料庫中,當使用者使用時對使用者輸入的關鍵字進行匹配,並將資訊返回給使用者。 這是使用最多的一種搜尋引擎,google,baidu就屬於這種類型。

目錄搜尋引擎是將搜索的資源按照一定的方式進行分類,最終建成一個很大的目錄系統,使用者查詢時可以逐層打開流覽目錄,最終找到想要的資訊,目錄搜尋引擎嚴格上來說並不是一個真正的搜尋引擎。 我們使用的yahoo,新浪就是屬於這種。

元搜尋引擎是一種調用其他搜尋引擎的引擎,它可以涵蓋更多的資源,提供比較全面的服務。 使用比較多的有Dogpile,Vivisimo以及國內的搜星。

上述三種不同的搜尋引擎分別可以用於不同的場合,有著自己的優缺點。 全文搜尋引擎一般用於綜合性的搜索,它的優點是資訊量大,更新及時,不需要人工干預,缺點是處理的資訊量大,資訊篩選困難。 目錄搜尋引擎大多是面向網站,提供瀏覽目錄服務和直接檢索服務,它的優點是人工的干預有利於提高資訊搜索的準確度,缺點是需要人工介入,維護成本高,更新慢,資訊量小。 元搜尋引擎由於可以查詢多個其他的搜尋引擎,所以特別適合於要求查全率高的場合,但是目前不同的搜尋引擎之間,建立索引資料庫和執行提問檢索的具體方法或規則並不相同,大大影響了元搜索工具的檢索效果。

第二、搜尋引擎實現的幾個關鍵技術

2.1 網路蜘蛛

網路蜘蛛的可以採用一下幾種方式實現:

(1) 基於廣度優先。 基於廣度優先的演算法按照所遇到的連結的先後順序進行訪問。 它是所有網路蜘蛛中是最簡單的一種策略。

(2) 基於深度優先。 基於深度優先的思想根據選定的條件計算網頁與搜索主題之間的相似度,選擇相似度最高的連結進行搜索,在相似度的計算過程中,通常採用余弦進行計算。

(3) 基於網頁評級。 基於網頁評級是利用網頁評級並結合內容對搜索到的文件組合進行評級,利用計算得到的結果從中挑選評級最高的連結作為下一個搜索的物件。

(4) InfoSpider。 InfoSpider是利用進化的關鍵字表和神經網路方法,對與主題相關的網頁進行相似度的計算,根據計算的結果決定下一個將要搜索的物件,同時計算新獲得的文檔與主題的相關程度以及在獲取文檔過程中所花費的代價修正代理的能量, 並根據其能量級別決定對該代理進行撤銷、再生與生存。

2.2網頁重要性的評判

對網頁重要性的評判方法主要有兩種,一種是基於連結的

方式,另一種是基於相似度的方法。

基於連結方式的計算的依據連結資訊與被連結的物件必然存在某種可信的映射關係。 在應用過程中經常用到以下內容:

(1) 入度:包含有連結目標指向本網頁的網頁數量;

(2) 出度:由該網頁連結出去的網頁連結數量;

(3) 網頁評級(Page Rank):指在任意時刻使用者訪問該網頁的可能性。

這種方法得到廣泛的應用,並且十分有效。

基於相似度的計算,一般都利用向量空間模型將查詢串與文本轉化為向量,然後評估文本與查詢串之間的相似度。

2.3搜尋引擎硬體系統的建立

搜尋引擎的硬體系統是整個系統的支柱,為了提供更快的查詢速度,硬體系統一般採用分散式的結構,Google的伺服器就分佈在全球各地,還採用並行技術,加快執行速率。 另外,索引資料庫的硬體設計也很重要,對於提高資料存取速度非常關鍵。

第三、搜尋引擎反展趨勢

未來的搜尋引擎有著一下的特點:

(1) 能夠收集到互聯網上幾乎所有的資訊;

(2) 可以遮罩一些非法的資訊;

(3) 查全率和查準率的提高

(4) 不僅能夠識別文本檢索詞,還能構識別圖像、音訊、視頻等等;

(5) 資訊更新更快;

(6) 跨庫查詢方便簡介;

(7) 交互介面人性化、個人化;

(8) 可以實現智慧搜尋。

(9) 移動搜索將會取得長足的發展。

第四、總 結

本文對搜尋引擎進行了詳細的講解,對他的關鍵技術的實現進行了分析,並且提出了以後的發展趨勢,隨著技術的發展,人們需求的提高,搜尋引擎將會別的越來越智慧,越來越高效實用。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.