仲介交易 SEO診斷 淘寶客 雲主機 技術大廳
從微軟耗資數百萬美元,Yahoo接連收購三家廠商,到國內搜尋引擎廠商的明爭暗鬥,無不是看重了搜尋引擎潛藏的巨大商業價值。 然而,資本的瘋狂並不能掩蓋技術的光芒。
「越是看不見的技術,越顯得深刻,因為它們已經完全融入了日常生活。 」
在北京人群川流不息的地鐵通道中,一排海報格外引人矚目,這便是剛剛在奧斯卡頒獎晚會上大出風頭獨得11項大獎的《指環王-王者無敵》的電影海報,仙風道骨的甘道夫和美麗的麗芙·泰勒令人不禁想走進那遙遠的中世紀。 海報上有很大面積用於企業宣傳,8848公司的標識赫然展示其上。 這是8848公司為了配合重新推出商務網站所做的宣傳,其重頭戲就是推出的「中文購物搜尋引擎」。 對此,有人說:「8848將手裡握有的兩千多萬美金這個寶壓在了搜尋引擎上。 」
如此大手筆的並不只是8848,剛從軟銀等投資方獲得了8200萬美元的阿裡巴巴也在不久前正式推出了傳言已久的搜索產品,與新聞搜索和競價排名搜索不同,阿裡巴巴搜索的目標使用群不是普通線民,而是「網商」, 主要發佈商業資訊和商業機會。 阿裡巴巴CTO吳炯表示,「我們第一次在搜索領域引進並確立了信用認證和保障體系。 」
不過,這些都是行業內的搜索領域,基於全網的搜尋引擎之間的競爭也日趨火爆。 慧聰國際在引入國務院新聞辦旗下萬國橋絡文化傳播公司的資金後,開始運營中搜網,並將註冊資本增加至750萬元,公司主要的業務就是搜尋引擎。
面對這些威脅,中國最大的中文搜尋引擎百度公司卻在樂得數錢,贏利近億元的收穫使得其在搜尋引擎市場上取得了絕對優勢。 不過,面對如此多虎視眈眈的競爭對手,百度也不敢放鬆,大規模的擴招正在進行,其中技術人員的比例最大。 原來學習自然語言的畢業生難找工作的現狀得到徹底改變,曾在微軟亞洲研究院從事自然語言研究的張躍說:「我的兩個師弟今年都被百度招了進去。 」
國際上的競爭同樣令人窒息,微軟要進入的每個領域都會使原來的廠商戰戰兢兢,微軟對搜尋引擎的進軍也伴隨著大規模的招兵買馬,微軟亞洲研究院也成立了專門的小組,不過Google面對這些挑戰依然充滿信心, 據說一位技術高手到微軟幾天後卻加盟了Google。 Google所提供的良好工作條件和創造的搜索文化對技術人員的吸引力可見一斑。
因此,儘管overture創造的贏利模式猛然間使搜尋引擎創造的巨大利益使資本垂涎三尺,但在市場的競爭中,技術才是最基本的保證。
搜尋引擎技術的原理
搜尋引擎技術的原理實際上很簡單:一般分為三個部分,首先是用蜘蛛(Spider)進行全網搜索,自動抓取網頁;其次是將抓取的網頁按照關鍵字進行索引,同時也會記錄與檢索有關的屬性,中文搜尋引擎中還需要首先對中文進行分詞 ;最後通過檢索生成的索引檔並按照各種參數進行複雜的計算,產生結果並返回給使用者。 也有人認為,搜尋引擎的介面設計可以算做新的部分。 這樣可以逐漸提升使用者的使用體驗。 除此之外,搜尋引擎的附屬功能中還包括分散式運算模組,以及一套後臺監控體系。 在這些部分中,最核心是的搜尋結果的排序,如何把最合適的結果排到前面。 因此,可以說其他的所有環節都是為最後的計算做準備的。
但實際的檢索效果受多方面因素的影響。 蜘蛛的穩定性和抓全率非常重要,最早的搜尋引擎只抓取靜態網頁,現在的搜尋引擎就要求抓取更多的動態網站,因此需要對含有Script語句的網頁進行解析,同時Flash的廣泛應用也要求搜尋引擎能夠解析其中的文字和超鏈。 海量科技一直潛心研究中文分詞技術和搜尋引擎技術,其總工王東勝表示:「有的網站為了防止被下載還做了很多陷阱,有時還需要在結果上進行分析,儘管這部分的技術難度不太高,但這是細活。 」
接下來的格式轉換和創建索引則需要深厚的技術功底。 索引的難點在於讓存儲資料結構盡可能的優化以適合搜索的需要。 這方面,各家搜尋引擎廠商的技術都不太一樣。 但如何盡可能減少記憶體、CPU佔用以及讀盤次數則是共同的目標。 儘管有些人有很好的想法,但不一定用現在的技術都容易實現。 由於搜尋引擎所需要處理的資料量極其龐大,不加限制的偏移位置、屬性的增加可能導致系統的過渡膨脹和檢索速度的下降。 王東勝說:「海量在這方面開發出了自己的獨立演算法,這種壓縮格式不需要解壓,直接就可以進行運算,這樣做可以節省資源並且高效的計算。 」