百度框計算中的需求分析概述

來源:互聯網
上載者:User

  框計算的目標是為使用者提供基於搜尋方塊的一站式搜尋服務。舉例來說,當使用者在搜尋方塊中輸入“非誠勿擾”時,系統就能明確該query有尋求電視節目視頻、電影視頻、尋找影評、參與討論及查看相關新聞等需求,然後將這些不同的需求分配給最優的內容資源或應用進行處理,最終精準高效地將滿足這些需求的結果展現給使用者。圖1展示了“框”對query“非誠勿擾”的滿足情況。從上面的分析中,我們不難看出,框計算的第一步,就是識別出一個query具有哪些需求,而這正是需求分析要完成的任務。

  

 

  圖1 “非誠勿擾”的框計算結果

  需求分析是框計算的入口,因為只有分析出query的需求,才能更好地展現出相應的結果來滿足使用者的需求。因此對query的需求分析得越準確、覆蓋的query准多,使用者的滿意度則越大。需求分析是框計算中最重要也是難度最大的地方之一。

  識別query的需求,最容易想到的方法是查詞表。比如將所有的電影、電視劇名都事先收集起來,放到詞表中,只要使用者輸入該詞表中的詞,就能識別出一個query是否有尋找視頻的需求。這種方法的優點是快,但缺點非常明顯:首先,這種方法只能將query劃分為2個維度,要麼有視頻需求,要麼沒有視頻需求。但很多視頻的名字,具有多方面的含義,在視頻上面只是其中一個微弱的含義,如果直接出視頻需求,則會極大地傷害使用者。比如,有一個廣告片的名字叫“百度一下”,這個廣告片可能60%以上的使用者都不熟悉,如果這60%以上的使用者輸入“百度一下”,直接給出一個名為“百度一下”的視頻觀看結果,則這60%以上的使用者會感覺非常困惑。其次,這種方法不能很好地滿足大部分使用者的需求。使用者在尋找視頻時,表述方法是多種多樣的,比如:士兵突擊全集、士兵突擊 高清、士兵突擊全集線上觀看等,這3個query都具有強烈的尋找視頻需求,但通過查表的方法,卻無法識別出該需求。再次,這種方法對電影、電視劇外的視頻需求無法滿足。有視頻需求的往往不止電影、電視劇,流行或新聞時效性的很多東西,都具有強烈的視頻需求。比如:西單女孩、中關村男孩、釣魚島撞船、朝韓炮擊等,多數使用者往往都有查看相關視頻的需求。最後,這種方法缺乏預測性,識別出的query數量有限。即對於詞表中的詞條,能夠識別出視頻需求,但詞表外詞條,無法識別出視頻需求。因此,如果詞表的規模為N,則最多隻能識別出N個query具有視頻需求。

  從上面的分析中,我們可以總結出,一個好的需求分析方法,至少要滿足如下需求:1)具有很高的準確率以及召回率,即能在識別出90%以上query需求的同時,又能保證識別出來的需求,95%以上都是正確無誤的;2)具有良好的預測能力,即能夠準確地預測出未知query的需求;3)具有識別需求與解析欄位功能,即在識別出query需求的同時,還能高效地從中解析出所需資訊。

  下面是幾個典型的例子。通過這些例子,大家就能對需求分析要完成的任務有一些大體的瞭解了。

  在圖2中,需求分析需要完成的任務就是解析出query具有匯率轉換的需求,並解析出數額56.7,以及源貨幣為美元,目標貨幣為人民幣。

  

 

  圖2 直接展現匯率結果

  在圖3中,需求分析需要識別出該query具有尋找火車時刻表的需求,並解析出起點站為北京,終點站為上海。進而直接為使用者展現出從北京到上海的火車時刻表,極大地方便了使用者擷取相關資訊。

  

 

  圖3 直接展現火車車次相關資訊

  圖4、圖5分別展示了需求分析如何通過識別出query具有尋找生僻字以及單位換算的需求,並直接給出答案的過程。這個過程對使用者而言是不可見的,但是對系統而言,卻需要進行一系列複雜的識別、解析與展現。

  

 

  圖4 滿足生僻字查詢需求

  

 

  圖5 滿足單位換算需求

  圖6顯示了需求分析識別出了使用者的query具有尋求招聘職位資訊的需求,並解析出公司名,職位2個欄位,而後系統直接從相關資料來源中檢索出所需職位展示給使用者的樣本。

  

 

  圖6 滿足使用者搜尋招聘職位需求

  從上述分析與樣本中可以知道,query需求分析的目標是識別出query的意圖或感興趣的領域,並從中抽取出所需欄位。要完成這項任務,是一件非常有挑戰性的工作。首先,使用者query表述方式的多樣性給需求分析帶來了不少困難。比如,關於尋找天氣這一種需求,使用者就有上百種不同的表達方式。其次,相近query可能具有截然不同的需求。比如:“從北京到上海車距”與“從北京到上海車票”,前者具有較強的自駕需求,而後者具有較強的火車時刻查詢需求。而同樣為明星,王菲、張學友,都具有強烈的視頻、圖片等需求,而李開複、張亞勤等科技明星,從使用者的需求來看,最強烈的需求是尋找百科資訊,而非視頻、圖片。最後,使用者輸入的query往往使用自然語言進行表述,有時還包含縮減與拼字錯誤,比如:5新加坡元=?美元、5人名幣等於多少美元等。這些客觀存在的問題,都加大了需求分析的難度。

  為更好地滿足使用者各式各樣的需求,強大的需求分析是必須具有的。百度框計算的需求分析,是通過對query的語義分析,結合使用者行為分析以及海量計算技術實現的。通過各種手段評估,目前已經達到了很好的效果。舉例來說,通過對一天幾百億次使用者檢索query的分析,使用機器學習的方法,我們就能自動從中學習出使用者的各種慣用或冷僻的表述方式,再結合語義分析、資訊抽取等技術,就能準確高效地即時識別出query的需求並解析出所需資訊,為廣大網民提供最便捷的搜尋服務以及搜尋體驗。



相關文章

E-Commerce Solutions

Leverage the same tools powering the Alibaba Ecosystem

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。