搜尋引擎深度剖析

來源:互聯網
上載者:User
關鍵字 搜尋引擎 Google 可以 剖析

仲介交易 SEO診斷 淘寶客 雲主機 技術大廳

2004年,作為互聯網上第二大應用的搜索發生了哪些變化? 年初,Google推出了區域搜索;年中,中搜和Google的桌面搜索越炒越火,搜狗則宣佈啟動第三代搜尋引擎;年底,微軟亞洲研究院正式把「互聯網搜索和挖掘」納入其主要研究方向......





  一場場造勢運動給人以箭在弦上、蓄勢待發的感覺,而其瞄準的靶心無疑是2005,第三代搜尋引擎全面啟動之年。





  超鏈分析,歷史的過客





  曾有國外的協力廠商機構對搜尋引擎網站進行了一次隱式測評,即拿掉各家網站的LOGO,讓使用者在沒有先入概念的情況下為其搜尋結果打分。 沒出預料的是,Google依然是這次評測的第一名;但出乎預料的是,Google只領先第二名一個百分點。 這一個百分點對使用者來說,幾乎是察覺不到的。 難道發明Pagerank技術的Google,如今的領先優勢就剩這麼一點了嗎?





  以Pagerank為代表的超鏈分析技術,是根據網頁之間的超鏈關係來決定網頁內容的重要程度,它在現有技術對網頁內容缺乏足夠認識時發揮了作用,但其理論基礎並不堅實,因為這體現的是「誰的聲音大,誰就代表真理」的思想, 也就是誰的連結多、流量大,誰的排名就靠前。 比如有關SARS的文章,新浪網上的文章會排在中華醫學會網站的前面。 這些事例都表明超鏈分析只是一種參照性技術,而無法揭露內容本身。





  如果無法理解內容,也就無法做到個人化。 幾年來,搜索網站都在利用相似的超鏈分析技術對搜尋結果進行排序,各家也會不時打開競爭對手的網站,查看一下別人的排序情況,思量一番再微調自己的參數。 這樣調來調去,各家網站的搜尋結果變得越發相似。 中搜總裁陳沛認為:「結果和別人不同,可能做得好;如果結果和別人相同,肯定沒法做得好。 第二代搜索使用的超鏈分析技術已經不可能實質性改善搜索品質了。 」





第二代搜索行將退出歷史舞臺,而各種新思想和新技術則開始嶄露頭角。 雖然它們的叫法各不相同,但其帶來的第三代搜索很可能在即將到來的2005年成為主流趨勢,陳沛甚至預言:「如果搜索公司在2005年下半年還沒有第三代搜索技術,就有可能被淘汰掉。 」





  第三代搜索,回歸的革命





  從上世紀90年代初搜尋引擎誕生至今,有數不清的公司投身其中,發明了五花八門的技術用以實現搜索,但具有劃時代意義的技術只有兩種,一是以人工目錄分類為基礎的網站搜索,它開始了互聯網搜索的時代,是一次開創性的革命。 二是以超鏈分析技術為基礎的大規模網頁搜索,其搜尋結果的準確度從網站上升至網頁,讓網路使用者的搜索體驗充滿驚喜,成為了一場開拓性的革命。





  第三代搜索日益臨近,關於它的概念卻還沒有統一的定論。 但可以肯定的是,搜尋引擎正在諸多方面發生著深刻的變化:搜索技術將更加智慧化,搜索資源將更加廣泛,搜索方式將更加便捷,專項搜索將更加豐富,接受終端也將向行動裝置發展。 因而即將到來的絕不是一次改良運動,而是一場改朝換代的革命,一次「回歸的革命」,讓搜索回歸內容本身,去貼近生活和普通使用者,從而也為搜索產業開拓更大的市場。





  現在,微軟、中搜和搜狗都在將人工智慧技術融入到搜索排序當中,從而實現搜尋結果的個人化。 如果使用者關心電影,搜索「綠茶」就會將有關電影的結果排在前面,而不是有關飲料的網頁。 智慧化也可以實現區域搜索,雖然互聯網是跨區域的,但是內容和服務卻是當地語系化的。 如果搜索「川菜館」,搜尋引擎把全世界的川菜館都給使用者,那麼大部分結果都將是垃圾。





  未來的互聯網也將打通所有網路資源的環節。 陳沛認為:「人們需要用最短的時間找到自己最需要的資訊,這才是搜索的本質。 」所以將來的搜索將很難區分搜索內容的來源,使用者可以用桌面搜索查找互聯網的、本地的和局域網的內容,也可以查找任何一台和你的電腦相連的電腦的內容。 這樣利用P2P的搜索,就可以查找一群朋友機器上的共用內容,無論他們是在天津還是在上海。





  來得早不如來得巧





  明確喊出「第三代搜索」且聲音響亮的微軟、中搜和搜狗,在過去的四年裡並不是搜索界的王牌軍,但這並不影響他們的鬥志,他們相信,搜索是一個由技術推動並迅速更新的產業,對財力和腦力都有極高的消耗。 所以當有記者問及微軟亞洲研究院院長沈向洋博士,是如何看待Google獲得高額IPO時,沈博士風趣地答道:「這說明,電腦專業的博士還是有點用的,搞技術的人還是可以賺一些錢的。 」作為微軟亞洲研究院的第五大研究方向,互聯網搜索和挖掘在沈向洋博士升任院長後高調推出。 同時,美國和英國的微軟研究院也在此領域有大規模的研究。 事實上,微軟公司CEO鮑爾默已經宣稱微軟將在五年內超越Google的搜索技術。





  「在新一輪技術競爭中,有些人落伍了,有些人成功了。 這就是為什麼這麼多人在搜尋引擎產業中前赴後繼的原因。 」雖然中搜是搜索領域的後來者,但陳沛堅信,作為一家年輕的公司,中搜會有更強的創造力。 搜狐旗下的搜狗同樣非常年輕,它被寄望于增強搜狐的整體技術實力和品牌優勢。 回顧這十幾年,搜索公司以很快的速度新陳代謝著:Google並不是第一家進入搜索領域的公司,卻可以打敗Altavista和Inktomi,成為了第二代搜索的王者。 而搜索公司LookSmart在去年10月被微軟MSN網站拋棄後,市值在當天就下跌了52%。





  搜尋引擎不是一個靠炒概念就可以混日子的產品,它可以被諸多硬性指標加以衡量,比如網頁覆蓋率、相關性排序的準確率、更新速度和功能豐富度等。 這些指標都可以用來判斷一家搜索公司的技術是不是足夠過硬,而且最要緊的是,使用者對好的搜索技術和差的是完全有感知能力的。





  在2005年,會有哪家搜索公司一夜崛起,又會有誰轟然倒下? 互聯網曾經並將繼續真實記錄搜尋引擎的發展歷史,那麼就讓我們在來年的互聯網上見識一下,究竟誰會成為第三代搜索的「新人王」。





  微軟如何勝出





微軟將在明年年初推出MSN的新版搜索,現在Beta測試版已經上線,提供了包括區域搜索和提問式搜索等富有創意的功能。 但理想和現實之間總有差距,MSN區域搜索的結果跟Google和雅虎相比還有一定的差距。 不過在理論上,微軟已經做足了準備。 今年,微軟亞洲研究院有多篇有關搜索的論文被著名的學術會議錄用,其中包括被資訊檢索方面最權威的學術會議之一的ACM SIGIR收錄的7篇,超過此次會議論文收錄總數的10%。 在微軟嚴謹而系統的搜索研究中,我們看到了它對原有搜索技術所做的六個方面的改進。





  網頁塊,更小的搜索單位





  現在,一張網頁承擔著多種功能,除了呈現主體內容以外,它還要顯示頻道連結和廣告等次要資訊。 雖然對使用者來說,這些資訊的重要程度是不同的,但對以往的搜尋引擎而言卻是完全相同的。 如果搜尋引擎可以區分出網頁上哪塊是正文,哪塊是廣告和導航,那麼搜尋結果應該會更為準確。 微軟亞洲研究院已經做了這樣的研究,它將網頁分割成幾塊,以網頁塊(block)作為搜索的最小單位。 從搜索網頁到搜索網頁塊,微軟發現搜索性能可以提升15%~25%。





  分割網頁塊的工作完全是自動進行的,因為電腦已經學會如何識別網頁塊及其體現的重要性。 機器學習的過程大致如此:找到一批佈局各不相同的網頁,人工標注其網頁塊及其重要性,然後將這些訓練資料提供給電腦;電腦通過識別每個網頁塊的屬性,包括位置、長寬、字數、是否有圖片等,逐漸學習到劃分網頁塊的規律。





  發現99倍的新資訊





  以往搜索的資料都是位於網路表層的靜態資訊,無法挖掘到位於資料庫裡的深層資料,而據估算,這部分資料可能占互聯網上所有資訊的99%。





  現在之所以只能搜索互聯網上1%的內容,是因為目前的爬行搜索技術無法爬進資料庫,它面臨著三個難題:一是如何從資料庫得到請求回應,爬到資料;二是如何將爬到的資料進行組織;三是如何整合這些資訊並呈現出來。





舉例來說,當搜索一個購物網站時,首先要找到獲得商品資訊的方法,然後識別出這些資訊,哪個是價格,哪個是型號,最後要將資訊整理好,用友好的介面返回給使用者。 「這就像在一個黑箱裡尋找寶藏,要把資料一點點的試出來。 」微軟亞洲研究院互聯網搜索與資料採礦組責任人馬維英博士這樣比喻,「或者像挖雷遊戲,如果方法得當,地圖一下子就可以被揭開。 」





  給每個人貼上標籤





  當我們通過搜尋引擎瞭解某個人時,很可能需要閱讀許多條連結的內容才能形成大致的概念。 而利用聚類技術,與某個人相關的高頻詞彙就會被識別出來,而數目眾多的搜尋結果也可以因此歸入相關的類別之下。





  搜索小組的研究員最常搜索的人物就是「馬維英」,可以看到他的主業是「互聯網搜索和資料採礦」。 而當搜索「姚明」時,看到的則是籃球明星、休斯頓火箭隊、姚明讚歌等詞彙,歸類的結果十分有趣。





  從文檔到知識的轉變





  文檔與知識有什麼區別? 可以這樣理解:大考臨近,你借來了學習委員的教科書,發現上面劃著直線、波浪線和螢光線。 這些被標記的地方都是老師強調的「知識點」。 由於經常上課睡覺,你的書頁上白白淨淨,只是所謂的「文檔」。 當你翻開自己的教科書,拿出筆來拷貝學習委員的標記時,就相當於完成了一次從文檔提煉知識的過程。





  以後,這個過程將由搜尋引擎來完成,當使用者搜索一個人或物時,很可能在結果中直接得到一段有關他或它的介紹。 這對經常碼字的博士生和記者來說,無疑是一個天大的喜訊。





  誰是最有影響力的人





  微軟搜索將從相關性搜索領域跨越到智慧化搜索領域,並借此實現人際網路搜索等服務。 比如提供某人發表論文的情況,這樣在某一領域發表過最多篇論文並排在前列的人,無疑是其中最具影響力的人。 馬維英打趣說,可以根據這個搜尋結果決定是否給某人授予終身教授的職位。





  人手一台搜尋引擎





  微軟利用Windows讓更多的人開始使用電腦,而它也想通過進入移動終端,讓更多的人開始使用搜尋引擎。 手機使用者的數量遠高於電腦使用者,而使用頻度也更高,市場也更為巨大。 因此微軟將移動搜索定為其關注的下一個重要領域。 移動搜索的介面將是特別改制過的,適合手機螢幕的寬度,以便使用者不必左右滾動螢幕,只要上下翻頁就可以了。





  中搜:後來的「先行者」





  中搜是搜索領域的後來者,而其總裁兼CEO陳沛卻是一個先行者。 陳沛曾做過10年的自動檢索,5年的人工智慧檢索,很自然的,他想到了將人工智慧技術融入到搜索排序當中。 在他看來,智慧化和桌面搜索代表著搜索的未來,其領導的中搜也成為這一理念的積極宣導者和堅定執行者。 對於很多事情,陳沛都可以侃侃而談,但卻很難回答這樣一個問題:「如果你說的這種技術很好,為什麼Google不做? 」但現在,Google也在中搜之後推出了新聞搜索和桌面搜索。





  互聯網週刊:為什麼在這次搜索技術的巨大變革中,您認為智慧化代表了未來的方向,智慧化又是如何體現的?





  陳沛:中搜經常講的例子是「獵豹」,它可以產生出汽車、體育與競技、娛樂、生物和極限運動等類別。 這樣漂亮的結果只有智慧化技術才能實現,第二代相關性技術根本無法做到這一點。 智慧化技術根據關鍵字和內容之間的關係來確定有可能的幾個類別,根據內容自動合併。 這個技術跨越了自動分類的技術,接近于自動聚類的技術。 而自動分類則是事先手工分好預備的類別,再將大部分關鍵字進行歸類。





  只有智慧化搜索才能帶來個人化的結果,而只有進入桌面才能使搜索更加個人化。 中搜推出的網路豬是第一款桌面搜索軟體,它有自己的註冊號碼,因此具有個人化的能力,它會根據使用者的設定和使用,將行為方式和習慣融入到搜尋結果中去。





現在,桌面搜索的聲音已經很大了,Google和微軟都在力推這一概念。 在互聯網上,中國人的反應有可能是非常快的。 過去,我說桌面搜索代表未來,有人跟我抬杠;等到Google做了桌面搜索之後,全世界都在說應該是這樣的。





  互聯網週刊:Google現在如日中天,中搜的機會在哪裡?





  陳沛:如果看到眼下的搜尋結果有很多的缺陷,其他公司就還有巨大的機會。 未來的所有搜索都將更加接近使用者的需求,所以中搜提供酒店搜索、新聞定制和MP3搜索。 而Google搜索MP3的成功率卻非常低。 中搜做的很多事情,Google都成了追隨者。 我們開始做新聞搜索,很多人都批評我們,但是現在,沒有新聞搜索是搜尋引擎的重大缺陷。





  互聯網週刊:Google曾經引導過很多潮流,包括它的頁面,被多次評為最佳搜索介面。 但您對Google這種極簡主義風格好像並不太贊同?





  陳沛:Google首頁曾經是最佳介面,因為那時使用者網速很慢,頁面簡單是一個優點。 但在寬頻時代,Google的介面已經過時。 有些人認為「輸入條+關鍵字」就叫搜索,我認為那只是搜索的一種方式。 其實這種重複勞動應該讓機器去做,開句玩笑,應該讓豬去做。 利用新聞定制,我告訴網路豬把有關Google的新聞都發給我。 我們公司市場部的員工全部都在使用網路豬,否則他們怎麼知道競爭對手都在做什麼。





  定制只是搜索的一個小應用,但卻是搜索思維方式的一次革命。 中搜的MP3搜索像KTV一樣—雖然像Google那樣保留了傳統的輸入框,但可以在上面點歌。 比如點擊「阿杜」,使用者沒有輸入任何字元,搜索就實現了。 我們希望普通使用者不要把搜尋引擎當作一個複雜的工具,甚至不知道這是一個搜尋引擎,但在後臺確實運行著搜索技術。 所以我們要用全新的方式展示什麼是搜索,我們即將推出的網路豬3.0版本,它會給使用者極具震撼力的搜索感受。





  互聯網週刊:搜索進入桌面後,是否也將帶來新的商機?





陳沛:當然。 現在中搜的桌面定址賣得非常好,網路實名已經過時了。





  搜索有四種方式:一是門戶的搜索,二是搜索的門戶。 按目前的情況來看,後者已經勝過前者。 但這兩個都不是好的搜索方式。 第三種是基於瀏覽器網址列的搜索,這是CNNIC和3721的方式,或者利用工具條直接搜索,不需要登錄網站。





  但這是最簡單的搜索方式嗎? 我一直在思考一個問題:瀏覽器和搜索是什麼關係,為什麼在搜索之前要打開一個瀏覽器? 如果可以在桌面上完成搜索,前面的一切手續都是多餘的。 所以我提出第四種方式的搜索,桌面搜索。 這不僅不需要登錄網站,連瀏覽器都不需要打開,使用者在任何地方都可以隨時進行搜索,例如輸入「聯想」,就可以直接進入聯想公司的網站。





  搜狗:「農村包圍城市」





  對於搜狐來說,第三代搜索不僅意味著對內容理解的回歸,還意味著其曾經主業的回歸。 搜狗要想在新一代搜索中取得和第一代搜索時相同的關注度絕非易事,但它有自己的計畫,搜狐公司研發中心總監王小川介紹說:「我們將用豐富的專項搜索吸引使用者,以農村包圍城市的戰略增強搜狗的使用黏性。 」現在上線的搜狗專項搜索,除了盡人皆有的新聞和圖片搜索外,還包括購物搜索。 不久後,搜狗還將推出各個領域的搜索新功能。





  在搜索思想上,搜狗和中搜非常相似,也在第三代搜索中強調使用者的個人體驗,並同時強調搜尋引擎與使用者的互動性。 據統計,使用者在每次搜索時輸入的平均關鍵字個數不到2個,有80%的普通使用者不會使用搜尋引擎裡的補詞功能進行下一步搜索。 因此,搜狗希望利用分類提示和主題提示等功能,引導使用者找到自己需要的資訊,這樣搜索後臺也能更好地理解使用者的需求。 特別是在關鍵字語義並不明確的時候,比如「綠茶」,究竟是電影、化妝品還是飲料,使用者需要通過互動點擊與搜尋引擎達成共識。





  搜狗比較有特色的專項搜索是購物搜索,它不僅可以根據品牌供應商品型號,也可以根據商品型號回溯到品牌名稱。 這樣一來,搜尋結果就從單一方向的樹拓展為360度的網狀結構,使用者的思維也跟著開闊起來。





  今年8月,搜狗在籌備半年多的情況下火速上線,這種高效率來自于它的年輕團隊,這裡聚集了大量博士和研究生,與Google的團隊非常相似。 這也印證了沈向洋博士的那句話,電腦專業的博士還是有點用處的。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.