從中國人網站看搜尋引擎的ASP服務

來源:互聯網
上載者:User
關鍵字 搜尋引擎

仲介交易 SEO診斷 淘寶客 雲主機 技術大廳

  根據中國互聯網資訊中心的第六次中國互聯網絡發展狀況統計報告, 搜尋引擎是僅次於電子郵件的第二大互聯網應用。 我國55.91 %的線民都使用搜尋引擎提供的互聯網搜索服務。 一個優秀的搜尋引擎對於吸引使用者、增加網站的粘性是至關重要的。 但是搜尋引擎是一個技術含量非常高的互聯網應用,開發和運行需要花費大量的人力和物力,代價極高。  





  中國人網站(www.chinaren.com)是一個面向全球華人新生代的入口網站。 在中國互聯網資訊中心2000年7月份進行的第六次中國互聯網影響力調查中,中國人網站成功進入前10名。 作為一個入口網站,其最主要的目標是建立品牌和吸引客戶。 而要吸引使用者,最主要的手段就是為線民提供最好的服務。   中國人網站從一開始就很明白,入口網站的優勢並不在於做搜尋引擎的開發,他們一直在尋找合作夥伴進行搜尋引擎方面的合作。 





   百度公司是一家專門從事搜尋引擎及其相關軟體發展的互聯網公司,它以ASP的方式向入口網站提供技術服務。 當百度公司在今年5月份推出百度搜尋引擎之後,中國人網站決定和百度合作。 在雙方共同努力下,僅用了短短的兩個星期,就推出了中國第一個提問式搜尋引擎--"孫悟空搜尋引擎",為使用者提供了很好的互聯網搜索服務。 





  ■高可靠的服務  





  互聯網搜索服務要求能提供每天24小時、每週7天的不間斷服務。 中國人網站要求系統在99.9%的時間內提供搜索服務。 百度公司作為提供搜尋引擎服務的ASP,採用了一些技術手段,確保了中國人網站搜索服務的高穩定性和可靠性。 





  1、高可用性的體系結構 





系統每個部分均採用N+1的冗余設計。 當在某個工作模組發生異常時,冗余模組可立即啟動使用。 系統能夠自動檢測模組的異常,並自動進行切換。 冗余模組有兩種配置形式: 





  備用冗余(Standby Redundancy) 冗余模組在工作模組正常工作時不投入使用,只有在工作模組異常時才被啟用,一旦原來的工作模組恢復正常,系統便會自動切回到工作模組,而冗余模組重新回到備用狀態。   活躍冗余(Active Redundancy) 冗余模組和工作模組同時工作,互為備份。 在正常情況下,冗余模組和工作模組共同分擔系統負載,在一個模組發生異常時,該模組承擔的工作便被分配給其它模組,當異常模組恢復正常後,會自動投入工作。 





  高可用性體系結構保證了系統的高可靠性服務。 





  2、系統異常報警系統 





  當系統模組發生異常時,除了冗余模組立即投入使用外,還必須向工程師報警,從而通過人工干預,儘快修復異常系統。 為此,百度公司開發了系統異常報警系統。 





  系統異常報警系統的工作原理是:系統監視程式定期檢測被監視物件的工作狀態,如果檢測到任何不正常狀態,立即向系統工程師和相關人員的手機發送短消息、或向呼叫器發送消息進行報警。 





  系統異常報警系統運行在與被監視物件不同的機器上,以進行遠端監測。 系統可以在半分鐘之內檢測到系統異常。 





  3、系統異常干預 





系統工程師在接到系統異常報警後,要立即進行干預,在最短的時間內恢復系統的正常工作。 百度把提供ASP服務的機器託管在中國電信。 在正常的上班時間,百度通過公司的局域網上網;在下班時間和公休日,百度通過電話撥號上網。 電話撥號上網可以通過ISP,但是在高峰時間ISP的電話非常繁忙,有可能不成功,為此,百度在伺服器的託管地申請了專用電話,專門用於撥號上網。 另外,如果公司的局域網不能連到互聯網,這部電話也可以作為上網備份。 





  ■靈活的客戶化策略 





  客戶化是ASP面臨的一個課題。 入口網站都有高品質的互聯網搜索服務的需求,但是不同的客戶又有自己不同的特色需求。 對於中國人網站來說,因為是面向年輕人的目標網站,因此追求新、奇、酷。 針對這種要求,百度設計了一整套靈活的客戶化策略。 





  百度提"內容類別聚"和"網站類聚"等豐富的特性供使用者選擇。 使用者能夠控制搜尋結果頁面的顯示風格和顯示內容。 在顯示內容上,除了從百度搜尋引擎返回的搜尋結果由百度控制外,其它所有內容(包括廣告、到其它頁面的連結等)都由客戶控制。 搜尋結果的顯示方式和內容也可以定制,如網頁的屬性(標題、摘要、編碼類型、日期、長度、URL)、匹配關鍵字的顏色、不同頁之間的連結方式都可以根據客戶的喜好決定。 





  百度從技術上緊密配合實現客戶的定制要求。 目前百度有三種模式與客戶交換搜尋結果: 





  服務應用協定模式(Protocol Model) 該模式採用客戶/服務員模式。 客戶的程式與百度的搜尋伺服器進行通信,通訊協定採用百度定義的BSP(Baidu Search Protocol)。 這種方式完全由客戶控制結果頁面的顯示方式,百度只返回檢索得到的URL及其屬性。 這種模式最靈活、客戶控制度最高,缺點是實現較為複雜,客戶需要一定的程式設計能力。 





服務應用範本模式(Template Model) 使用者事先定義好結果頁面的顯示內容和顯示方式,結果頁面完全由百度的搜尋引擎構造。 使用者除了處理與使用者的Web介面之外,不做任何工作。 這種模式的優點是簡單、易於實現,缺點是客戶可控制度低,範本的變化頻率快,靈活性也很差。 





  服務應用協定範本模式(Protocol Template Model) 這種模式是上述兩種模式的結合。 客戶用顯示範本定義結果頁面部分內容(往往是檢索結果)的顯示方式,其餘的部分由客戶自行決定,整個結果頁面的構造由客戶完成。 檢索情況(如有無結果,有無"相關檢索"等特性,結果有多少,服務是否正常)的返回遵循百度和客戶事先定義好的協定。 這種模式既易於實現,又為使用者提供了很好的靈活性。 





  中國人網站採用的是服務應用協定範本模式。 中國人網站希望提供一種能夠理解自然問句的中文搜尋引擎,所以網站需要知道每個查詢的檢索情況,並做相應處理。 如果一個檢索有結果,網站便將百度搜尋引擎返回的URL和自己的廣告整合在一起,顯示給使用者。 如果該查詢沒有結果,網站便進行切詞處理,用處理得到的詞構造查詢串,再次向百度搜尋引擎提交,獲得檢索結果。 





  ■百度搜尋引擎的技術特點 





  百度搜尋引擎具有回應速度快、查找結果準確全面、時效性強、無效連結少、符合中文語言特點和中國人使用習慣等優點。 





  1、使用智慧化的中文語言處理技術 





  百度搜尋引擎使用獨特的中文語言處理技術巧妙地解決了中文資訊的理解問題,資訊索引基於字和詞,較好地解決了單純基於字或單純基於詞的缺點,結合了兩者的優點,更加符合中文使用者的搜索習慣。 百度搜尋引擎支援主流的中文編碼標準(包括GBK、GB2312、BIG5),並且能夠在不同的編碼之間轉換。  





2、使用可擴展的搜索技術 





  百度搜索使用具有智慧性的網路蜘蛛(Spider)自動地在互聯網中搜索資訊,可定制、高擴充性的調度演算法,使得搜索器可在極短的時間內搜集到最大數量的互聯網資訊,搜集範圍涵蓋了大部分華語地區和北美、歐洲的部分網站。 





  3、使用智慧的相關度評價演算法 





  百度搜尋引擎採用了基於內容和基於連結分析的方法進行相關度評價,能夠客觀地分析網頁所包含的資訊,從而最大限度保證檢索出的結果與使用者查詢串有很高的相關性。    


   


  4、使用高效的搜索演算法 





  運用多執行緒等先進技術,高效的搜索演算法和穩定的Unix平臺,使每個檢索的平均回應時間小於1秒。 


相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.