搜尋引擎基礎演算法如何確定返回結果之演算法分析

來源:互聯網
上載者:User

  搜尋引擎是否試圖首選輸入查詢返回頁面?如果你意識到這一點,你就會明白,為什麼Google和其他搜尋引擎會使用一個複雜的演算法來確定什麼結果他們應該返回?在該演算法的因素中包括“硬因素”,比如反響你連結到一個頁面的數量,一些通過喜歡和+1功能實現的社會建議。這些通常都是一些外部影響,還有一些頁面本身的因素,只有通過分析線上和離線因素可能為Google來確定哪些頁面是背後問題的查詢,對於這個Google將不得不分析一個頁面上的文本。

  1、TRUE或FALSE(真或假)

  雖然搜尋引擎在最近幾年的發展中已經非常迅速,但是它依舊只能處理布爾演算法。簡單來說一個長期被包含的一個文檔,一些是真或假,1或0。另外你可以使用電訊廠商的AND,OR和NOT搜尋包含多個條件或排除條款的檔案。這聽起來相當簡單,但是它確實存在一些問題。

  假設我們現在有兩個文檔,其中包含以下文本:Doc1:“我們在紐約的餐廳提供bitterballen croquets服務(And our restaurant in New York serves croquets and bitterballen)”;Doc2:“在荷蘭您從牆上檢索croquets和frikandellen。(In the Netherlands you retrieve croquets and frikandellen from the wall)”

  如果我們要構建一個搜尋引擎,第一步是標記文本。我們希望能夠迅速確定哪些檔案包含特殊的術語,如果我們都把令牌放在一個資料庫,這很容易實現,一個令牌就代表在為本中任何一個單術語。所以有多少令牌在Doc1中包含呢?

  當你開始想回答這個問題的時候,你可能想頂一個一個“術語”。實際上在Doc1中“紐約”應該被認為是一個特殊的單術語。我們怎麼能確定這兩個單詞,實際上是一個超出了本文範圍的一個詞,所以目前我們威脅每個單獨此作為一個單獨的令牌。. 所以我們有10個令牌在從Doc1和11令牌在Doc2。為了避免重複的資訊在我們的資料庫中,我們將儲存類型而不是令牌。

  類型是在文本上的單獨令牌。在Doc1中包含兩個令牌“and”,這裡需要說明大小寫不易的AND可以算作是兩次。在這個例子中我們可以將“and”和“&”作為一個相同的類型儲存。

  通過儲存在縮句庫中的所有烈性的檔案,搜尋引擎可以找到他們,我們可以在資料庫布爾值的協助下進行搜尋。如果搜尋“croquets”將會從Doc1和Doc2中返回兩個結果,但是如果搜尋“croquets和bitterballen”將只返回從Doc1結果。這樣的結果會導致一個問題是你可能會獲得太多或太少的結果。此外,它缺乏組織能力的結果。如果我們想要提高我們的方法,必須確定我們嗎尅一使用其他存在/缺乏一個文檔,你會使用頁面要素組織結果。

  2、帶索引

  一個相對簡單的方法是使用帶索引,一個web頁面可風味不同的地區。想到一個標題,描述,作者和內容,通過在文檔中添加一個內容,我們可以為每個文檔計算出一個簡單的評分,這個是搜尋引擎用於確定頁面主題的方法。

  不同的地區有不同的重量,在搜尋引擎的索引中根據這些地區的品質來確定網站在serp中排序。比如,標題(0.4)描述(0.1)內容(0.5),比如我們執行以下搜尋查詢“croquets和bitterballen”,其中我們有一個文檔被索引的值如下表格所示:

 

 

地區 內容 布爾 得分
標題 紐約咖啡館 0 0
描述 美味的咖啡廳與croquets和bitterballen 1 0.1
內容 我們在紐約的餐廳供應croquets和bitterballen 1 0.5
 

  因為在seo最佳化某些時候,站長朋友都開始濫用權重分配到描述,這就使得Google的身體分割在不同的地區和不同的權重分配到每個地區變得更加重要。

 

  想要很好實現這些是相當困難的,因為在網路中包含具有不同結構的各種文檔,但是如果使用XML文檔就顯得簡答的多,它比html檔案的結構和標籤要豐富的多,這是的分析更加簡單。當然在現在和html5中或許Google會支援它的一些微格式,但它仍然有它的局限性。例如,如果你知道,Google分配更多的重量內的< content >標記和內容在< footer >標籤的內容,你將永遠不會使用< footer >標籤。

  要確定頁面的情況下,Google將不得將網頁分割成快。通過這種方式,Google可以判斷哪些資料區塊在頁面上是重要的,哪些不是。可以使用的方法是比較文本/代碼的比率。如果一個頁面中包含更多的文本,html代碼中半酣的主業內容在頁面快上。如果頁面快中包含許多的html代碼/連結,有很少的內容,可能是菜單,這就是為什麼選擇正確的編輯器是非常重要的,因為某些編輯器使用很多不必要的HTML代碼。

  文本/代碼比率的使用僅僅是一個搜尋引擎可以使用的頁面劃分成塊的方法之一。帶索引方法的優點是,你可以很簡單的計算為每個文檔的得分。許多檔案的缺點當然是可以得到相同的分數。

  原創文章是是由:http://www.thebaiduseo.cn/news-19.html站長首發,轉載請保留有效連結地址,謝謝!



相關文章

E-Commerce Solutions

Leverage the same tools powering the Alibaba Ecosystem

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。