仲介交易 SEO診斷 淘寶客 雲主機 技術大廳
在搜尋引擎的圈圈裡,」語義「是一個帶有魔幻光環的字眼。 對它的大肆渲染會讓你猜想說這可能是第二次搜索的高潮。 這些宣傳讓我覺得有些許懷疑,我也一直在等待著這個技術變得成熟。 這個時刻到了,我現在很高興給大家介紹一下5個頂級的語義搜尋引擎。
什麼是語義搜索呢?
一個語義搜尋引擎試圖通過上下文來解讀搜尋結果的。 它可以自動識別文本的概念結構。 例如,如果你搜索「選舉」,語義搜尋引擎可能會獲取包含「投票」,「競選」和「選票」的文本資訊,但是「選舉」這個詞可能根本沒有出現在這些資訊來源中。 (編者注: 也就是說語義搜索可以對關鍵字的相關詞和類似詞進行解讀,從而擴大搜索資訊的準確性和相關性。 )
在語義搜索的過程中,有一個重要組成部分,那就是針對查詢的資訊和網路上的內容,進行 消歧(消除模棱兩可的情況)。 這意味著,搜尋引擎通過自然語言處理 - - 當你搜索「美洲虎" (捷豹轎車), 尋找會知道你要找一輛車還是一個大型貓科動物 。 (編者注:目前普遍的搜尋引擎所做到的基本上是對於關鍵字的關注度,哪個關鍵字搜索的人多,基本上哪種結果會出現在前列。 )
下面要給你介紹的這些搜尋引擎都多少採用了語義分析來篩選和詮釋資料。 但是,你也將會看到,這幾個搜尋引擎採用了不同的方式並且展示了五種不同的產品。
什麼時候使用語義搜尋引擎呢?
語義搜索擁有一種能夠提高傳統網頁搜索體驗的能力,但是它卻起不到替代性的作用。 網路上大部分的搜索問題都是很隨性的流覽,對結果的要求也不精益求精,所以語義搜索的用處不大,倒是有針對性的研究搜索,會得益于語義搜索的結果。
現在來看看我們這個5個最牛的語義搜索的名單,來看看他們將如果提高你的搜索體驗。 Hakia是一個通用語義搜尋引擎,和下面要介紹的Powerset,Cognition不同,其搜尋結果是像維琪百科一樣的語料庫。
Hakia的搜尋結果是通過Tabs(標籤)來組織的:網頁結果,可靠網站,圖像和新聞,可靠網站涉及的結果是那些經過Hakia邀請的圖書館員和其他資訊專家認證的。 (編者注:美國的圖書館員都是非常有學問和學歷的資訊專家,每個學科分支都有專門的圖書館員,他們擅長資訊分類檢索,每年在華盛頓都有圖書館協會的會議,全國各地的圖書員會聚集在一起探討新的資訊分類,科技檢索。 很多現今的技術和搜索模式都是他們最先開始宣導和開發的。 )
相對於一些簡單的搜索問題(比較典型的是那些流行的問題和缺少歧義的搜索問題),HaKia會給出一個類似于簡歷一樣的東西。 這是一個各種基於主題的相關資訊匯總。 每個「簡歷」都由一些資訊的連結匯成索引,並且給出了快速引用,在頁面上即時呈現。
這些「簡歷」的內容會根據搜索問題的特性變化(例如:個人檔案,文獻目錄,大事件,可以是關於個人的,政府,經濟,文化,也可以是關於國家的資訊。 ) 這個「簡歷」對於我來說是我最喜歡Hakia的特色,特別是我搜索一些話題的時候。
Hakia通常會給你推薦一些相關的搜索,這對研究來說都是挺棒的支援。
舉個例子,如果我搜索奧巴馬,HaKia 會推薦我是否對他老婆,希拉蕊,民主黨,共和黨薩拉培林,約翰麥卡恩等等人也感興趣。
但是有一些問題HaKia也會給出品質比較差的結果,不過HaKia還是在測試階段,相信會有快速提高的。 enseBot是一款將搜尋結果提煉總結為一個精煉的文摘形式的搜尋引擎。 它試圖去理解這些搜尋結果的介面的意義。 從這個出發點來看,它使用的是文本挖掘,試圖分析網頁並鑒定他們關鍵的語義概念。
Sensebot從這個方式説明你迅速的掌握哪些相關的資訊到底是什麼。 從這個角度來看你不需要自己去尋找大量的網頁,甚至梳理出現的結果中不完整的專家的定義(甚至不需要理會任何定義。 )
這個精煉的總結的作用是説明消化你搜索的主題,將各種搜尋結果的相關、重要內容彙聚在一起。 它還提供給你由各種相關概念以及一個被認為是定義總結了你的搜索問題的語句的表單彙聚成的標籤雲。 每個語句後面還包括了它們的出處的連結。
也不是所有的總結都是資訊廣泛或者容易理解的,但卻是極有可能被改進的。 Hakia,SenseBot都還在測試階段。 這些振奮人心的先進科技每天都在與時俱進。
Powerset現在不是一個正規的網頁互聯網搜尋引擎。 它在相對小型,有結果的語料庫中能發揮最大的xiao,該技術提供了對資訊資料的全面把我。 您可以在維琪百科上進行測試,但是你會發現Powerset更擅長這方面的搜索,它對用於研究目的搜索而構建資訊和表述的方式,是基於維琪百科的巨大改善。 你可以在搜索欄輸入關鍵字,短語,或者一個簡單的問題。 Powerset通常會直接在搜尋結果的介面上直接回答問題。 我最喜歡的一個特色就是Powerset把多個文章中的資訊綜合在一起。
"Factz"是往往會出現在搜尋結果中一個盒子,它是一個囊括基於可用資訊建議出來的參考資料。 例如,當我搜索奧巴馬,Powerset提供了一些奧巴馬對羅伯特蓋茨,中東,巴基斯坦,貿易的看法的資訊的連結。 點擊搜尋結果中一個連結,將顯示出一個小的對話方塊,裡面會有奧巴馬的在提到文章中發言的引用,還有被引用話語的原文連結。
DeepDyve (編者注: Deepdyve是目前比較有發展前途的一個語義搜索,編者在去年就注意到這家公司,還聯繫上了這家公司的幾個程式師,發現有很多中國人在這裡工作。 )
DeepDyve是一個非常強大,專業的研究工具,提供給大眾免費的服務。 (編者注:Deepdyve的搜索服務是免費的,但是如果你要閱讀搜索出來的學術期刊,還是要付費的。 )
這是一個研究引擎説明你進入專業內容的「深層網路」:那是互聯網中沒有被傳統的搜尋引擎索引或收錄的資訊(比如一些專業資料庫,期刊等)。 學者,研究員,學生,技術專家,商業等Deepdyve的使用者和其他資訊消費者可以在以下分類中搜索維琪百科和「深層網路「的資訊: 生命科學,醫學,物理科學,人文和社會科學,商業和金融,專利,法律,清潔能源科技,電子工程。
研究網站的搜尋引擎往往依賴于布林語言或硬式編碼分類(編者注:邏輯運算電腦語言),這些語言是有門檻和一定學習曲線的,一般人出來那些從業者是很難使用它們的。 Deepdyve是目前擁有呈現這些有價值的資訊來源的教簡易介面的服務搜尋引擎。 你的搜索問題可以是任何獨立單詞甚至25000的字的問題構成的。 這個搜索的結果會以一種複雜的方式呈現,包括了許多高級的選項:提煉,分離,存儲你的搜索。 即使有複雜型的存在,這個搜尋結果還是相對來說很容易流覽的。
Cognition 的搜索業務是基於語義地圖,在它成立的24年後,Cognition得以自稱是如今可用的最全最精的英語搜索地圖
你可以使用Cognition的技術來搜索下面四個載體內的資訊。
· Public.Resource.org(目前一共有675,704個聯邦案例法檔,1,858卷,全部都是XHTML格式的檔。 ) 這次發佈的資訊由自1950年開始高等法院和上訴法院的決定組成。
· MEDLINE(醫療文獻分析及線上檢索系統)摘要庫:此資料庫內的摘要來自于世界文獻資料庫內的生命科學和生物醫藥科學資訊。 它囊括了醫藥,護理,醫藥學,牙醫學,獸醫學,和健康關懷的資訊,還有一些和醫學沒有直接聯繫的領域的資訊,例如分子進化論。 (目前有18,005,903個檔)。
· 全部英文版本的維琪百科內容
· 最全面的新英語翻譯內容,包涵文本和諸如福音書theGospels of Matthew, Luke, John and Mark的譯者筆記。
我們在維琪百科內測試了Cognition.在這個擁有大量文本的資料庫中,Cognition在對複雜問題的意思分類上表現的尤為出色。
· 詞彙:比如區別「古老的禮拜堂 和古老的廟宇」undefined
· 意思區分:「罷工的工人」 對比「加州的石油黃金」undefined
· 分類 :例如「拉丁美洲的印第安部落」 或是「 北美洲樹木疾病」undefined
這些Cognition使用的去解決搜索問題的技術是給人以深刻的印象,Cognition給消費者提供了一種友好的方式去更有價值地的控制意義和分類。 undefined,我認為我對Cognition搜尋結果的表述還不是很完善,但是我殷切地希望Conition團隊也可以借鑒一下Hakia或者Powerset的經驗。 undefined