搜尋引擎核心演算法:自然語言和布林搜索

來源:互聯網
上載者:User

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

本人從事搜尋引擎相關的工作已有十一年,今天與大家一起談談搜尋引擎核心演算法之:自然語言和布林搜索。 論述引出了如下結論:搜索爬蟲和搜尋引擎使用某種啟發式方法給網頁排名,並返回結果。 爬蟲觀察模式,以確定某網頁的內容,搜尋引擎在搜索查詢中查找模式,並與爬蟲識別的模式進行比較,並返回結果。

這個理論的複雜性在於,我們使用的是活躍的、不斷成長、不斷演變的語言,這意味著語言的使用模式也在不斷變化。 為了跟上這種變化,搜尋引擎也必須是活躍的、不斷成長、不斷演變的,所以在理解如何針對搜尋引擎定位阿站時,啟發式方法是一個非常重要的概念。 理解它的最簡單方法是比較過去和現在的搜索行為,確定搜索是如何演變的。

開始時使用布林搜索

今天,人們的搜索方式與搜尋引擎剛剛問世時的搜索方式完全不同。 記得以前提過 Archie、Gopher、Jughead和verojnuca 這些早期的索引和搜索程式的能力是相當有限的,要在索引中查找資訊,必須對索引非常瞭解。 實際上,使用Archie和Gopher時,必須知道所要查找的文檔或檔的確切位置。

有了Jughead和VERONICA後,就可以實際搜索資訊了:但那時,搜索仍是非常基本的。 當搜索最終變為可能時,如何查找檔是有一些嚴苛的規則的。 在搜尋引擎的早期,還沒有今天非常普遍的自然語言搜尋。

使用者必須指定他們要搜索「這個短語」,而不是搜索「那個短語」,或者精確搜索某個短語.輸入靠爾邏輯——在索引中查找正確的檔或文檔所需的方法。 布林邏輯基於GeorgeBoole在19世紀中葉提出的邏輯代數系統。

實際上,布林邏輯就是把資料分解為集合,直到資料集合非常小,滿足初始查詢提出的要求為止。 例如,在搜索時,網路上可能有1000個網頁有關「pools」,有1000個網頁有關「saltwater」,如果搜索「saltwater pools」,就會返回所有2000個阿頁。 這實在太多了。 但合併這兩個術語,僅查找既包含「saltwater」、又包含「pools」的網頁,則只返同原來2000個阿頁中的一小部分,如圖5—1所示。

為了使這個例子更進一步,可以添加一個限制符,例如「not chlorine」,以縮小資料集合。 添加這個限制符時,會去除另外部分資料,滿足「pools,saltwater. but not chlorine」查詢的選項就更少了,如

這個例子演示了布林搜索中使用的3個運算子:與、或、非。 布林邏輯基於邏輯代數系統,所以這些運算子都可以用一個符號表示:

·與:+

·非;

·或:預設運算子,返回包含任意一個單詞的所有頁面,而不管它們的接近程度如何。 該運算子用單詞之間的空格表示。

剛開始時有2000個網頁,但使用布林邏輯運算子來分解資料集合,就大大減小了搜尋範圍。 現在找到需要的內容的可能性更大,且查找速度更快。

在互聯網搜索的早期.布林邏輯説明使用者定位需要的檔和文檔。 從啟發式方法的角度來看,布林邏輯為搜索提供了完美的問題解決能力。 但技術會逐漸成熟起來......

小站(BET365)HTTP://www.588m.com

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.