來源: 互連網周刊
通用搜尋引擎在某些方面的表現越來越差強人意。那麼,如何讓搜尋結果變得更加一目瞭然?微軟亞洲研究院的聶再清和文繼榮研究員,向《互連網周刊》介紹了一種由他們研究成功的“對象層級的垂直搜尋技術”(Object-level Vertical Search)。
本刊記者 李洋
小李要買一部智能手機,想瞭解幾款產品的介紹、價位和評價等資訊。但是當他用通用搜尋引擎尋找資訊時,卻得到了五花八門的結果。令人頭疼的是,他必須挨個點進連結,註冊一堆論壇帳號,還要自己把各種看到的資訊綜合起來,才能獲得關於這部手機的完整資料。
是的,通用搜尋引擎在某些方面的表現越來越差強人意。那麼,如何讓搜尋結果變得更加一目瞭然?微軟亞洲研究院的聶再清和文繼榮研究員,向《互連網周刊》介紹了一種由他們研究成功的“對象層級的垂直搜尋技術”(Object-level Vertical Search)。
一目瞭然的結果
這個聽起來有點學術化的技術其實並不難理解。當你使用這種搜尋引擎時,它列出的結果將是最終對象的集合,而不是雜亂的網頁列表。一切的一切都圍繞著你所搜尋的那個對象。
比如,當你搜尋“多普達”時,系統列出的不是包含此資訊的各種頁面標題、內容檢索,而是一個個多普達手機—除型號、圖片等直觀資訊外,每個產品下還列出介紹、價格、使用者評價等相關資訊,就像我們在購物網站中看到的陳列頁面一樣,但內容要遠比某個網站所陳列的豐富,因為是來自整個互連網。搜尋引擎所列出的對象內容並不是通過人工來整理的,而是電腦通過自動抓取、自動分類而形成的“虛擬”頁面。
這項技術目前已經獲得初步應用。在微軟亞洲研究院作為實驗的學術搜尋(libra.msra.cn/)中,當你輸入“Data Mining”(資料採礦)這一關鍵詞,便可獲得相關論文的排名列表。結果以論文為對象進行排列,每篇論文下都可列出被引用次數和作者;點進每篇論文的連結,可以看到該論文的介紹、可供瀏覽和下載的原始連結,以及相關的參考論文。
與此同時,在論文的結果清單左側,還有相關作者、會議、期刊的排名。如果再按“作者”(Author)搜尋,系統會自動排文出“資料採礦”領域內最權威的科學家名單,與此類似的,你還可以進行相關的會議、期刊和學術社區等方面的搜尋。目前,微軟的該學術搜尋還僅限於電腦領域。
與基於文字的搜尋結果相比,基於對象的搜尋結果顯然更加一目瞭然,實現更加垂直而專業的搜尋效果。目前,這項來自微軟亞洲研究院的技術,正在應用到Windows Live產品搜尋引擎(Http://products.live.com)的測試版開發中。以產品作為對象的搜尋結果中,使用者還可以按照相關度、價格進行排名,或按照一些熱點針對某家網站進行搜尋。
據聶再清研究員介紹,經過第一個月的試運行,該系統已經自動地找到了10萬家
電子商務網站和數千萬個網頁,並從這些網頁中抽取出了上億條商品對象資訊—這一數字是任何一個商家平台無法獨立實現的,在未來它有可能成為世界上最全的產品目錄庫。物件導向的搜尋引擎無疑充當了跨越眾多購物網站的基礎平台。
核心技術
那麼,這項技術是如何?的?細心的讀者可能從前面的介紹中看出端倪,這是區別於傳統搜尋引擎思路的一個新的體繫結構。
首先,它要依靠網頁爬蟲技術,抓取某一個特定領域(比如一個照相機產品)中的所有相關網頁。在獲得這些頁面後,系統要對這些網頁中所包含的對象資訊類型進行分類,也就是說,它要分辨某個網頁究竟是一篇論文、一個部落格頁面,還是一個商品資訊頁面。
在完成了這項工作後,系統就可以分門別類地將內容整合到對象資訊倉庫中。而這項工作需要事前進行大量的訓練和模型組建。比如,在一個商品頁面的訓練中,要告訴系統什麼情況下是商品名稱、商品圖片、價格;通過此類學習之後,系統就可以自動找到它所要的關鍵內容。
在這一領域的研究中,曾有人在HTML代碼上做過嘗試,卻都不太成功,因為代碼的編寫總是千差萬別的,但最後它們所實現的頁面顯示卻幾乎大同小異。在發現了這一點後,微軟亞洲研究院的研究員們在這一過程中巧妙地結合了視覺分析技術,設計一些演算法讓電腦能夠像人類一樣,看到一個頁面的“興趣中心”,並智能地做出判斷。
在進行了抓取、分類、抽取之後,垂直搜尋引擎就可以利用這些結構化的對象資訊,來應對使用者的提問,進行各種智能分析和挖掘工作。
推翻現有架構
這樣一種技術是具有革命性的。使用者可以利用它進行各種垂直類的深度搜尋。它在推翻即有架構之後,無疑要比傳統搜尋引擎經受更多的考驗。
比如,要保證結構化資訊的高品質、全面性、準確度。並且,由於這一搜尋引擎的資料庫,要儲存互連網上以及各地離線資料庫中的相關對象資訊,對儲存和運行規模的延展性也提出了挑戰,這一技術必須擁有一個能夠儲存數以十萬計的“超級資料庫”,並且保證其演算法能夠足夠快速地進行檢索。
在給使用者帶來便利的同時,新的搜尋引擎帶來了一系列圍繞技術規則改變而衍生的商業模式潛在變化。比如,在基於對象的搜尋引擎中,傳統的網頁排名方法(PageRank)已不適用。微軟亞洲研究院的研究員們提出了流行度排級(PopRank)。
這項所搜即所得的技術具有很強的通用性,除了產品搜尋、學術搜尋外,還可以應用到黃頁、部落格、人物、工作職位、飯館、機票搜尋等多種垂直搜尋領域,而其與電子商務的結合、新廣告形式的衍生,將是一個嶄新的話題。