搜尋引擎的3個核心問題

來源:互聯網
上載者:User

  1.使用者真正的需求是什麼

  搜尋引擎使用者輸入的查詢請求非常簡短,查詢的平均長度是2.7個單詞。如何從如此短的查詢請求裡獲知隱藏其後的真實使用者需求?這是搜尋引擎首先需要解決的非常重要的問題。如果不能擷取使用者真正的搜尋意圖,搜尋的準確性無從談起,即使後續內容匹配演算法再精巧也無濟於事。

  從另外一個角度看,即使是同一個查詢詞,不同使用者的搜尋目的是不同的,如何識別這種差異?如果更進一步,即使是同一個使用者發出的同一個查詢詞,也可能因為使用者所處情境不同,其目的存在差異,又如何識別?所有這些都是搜尋引擎需要解決的核心問題,即使用者在此時此地發出某個查詢,他的真正搜尋意圖到底是什麼。

  2.哪些資訊是和使用者需求真正相關的

  上述第一個核心問題是從使用者需求角度出發的,另外兩個核心問題則是從資料角度考慮的。搜尋引擎本質上是一個匹配過程,即海量資料裡面找到能夠匹配使用者需求的內容。所以,在明確使用者真實意圖這個前提條件做到後,如何找到能夠滿足使用者需求的資訊則成為關鍵因素。

  判斷內容和使用者查詢關鍵詞的相關性,一直是資訊檢索領域的核心研究課題,不斷提出的資訊檢索模型即在試圖解決這個問題。相關研究曆時近60年,儘管不斷有新方法提出,檢索效果總體而言也在逐漸改進,但是這個領域的基本指導思想還是基於關鍵詞的匹配,包括現在所有搜尋引擎的相關性計算部分,其基本計算思路和幾十年前相比並無本質差異。

  3.哪些資訊是使用者可以信賴的

  搜尋本質上是找到能夠滿足使用者需求的資訊,儘管相關性是衡量資訊是否滿足使用者需求的一個重要方面,但並非全部。資訊是否值得信賴是另外一個重要的衡量標準。

  搜尋引擎需要處理的資訊對象是互連網上任意使用者發布的內容,但是內容發行者所發布內容是否可信並無明確判斷標準。這其間存在惡意的資訊發行者故意歪曲事實的情況,也有資訊發行者無心的錯誤。在同一個查詢的搜尋結果內,完全可能存在互相矛盾的搜尋答案,此時資訊的可信性即成為突出問題。

  從某種角度看,連結分析之所以能夠改善搜尋結果,可以認為是對資訊的可信賴度做出的評判。即將網頁的重要性作為是否可信賴的一個判斷標準,返回重要網頁即是返回可信賴網頁。



相關文章

E-Commerce Solutions

Leverage the same tools powering the Alibaba Ecosystem

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。