一 產業背景
隨著互連網的發展,和網站數量的爆炸性增長,搜尋引擎在人們的互連網生活中扮演者越來越重要的角色。從國外的Google雅虎搜尋,到國內的百度,騰訊soso,搜狗,360搜尋,通用性搜尋引擎市場基本已被瓜分完畢。 同樣的通用搜尋引擎存在較高的行業壁壘。
其一: 作為一個檢索整個互連網的通用搜尋引擎,需要大量的高效能伺服器,每月也會耗費大量的頻寬,其資本投入非一般企業可以承受。
其二: 這個行業存在較高的技術壁壘。 目前搜尋引擎的技術還不完善,其技術水平直接影響使用者的搜尋體驗。Google作為Top1的搜尋引擎,彙集了全世界最優秀的程式員和研發人員。作為一名資訊檢索方向的研究生,這個企業也是我們這些人的夢想之地。 百度也在挖掘研發人才方面不遺餘力,並以高薪養之。 騰訊搜搜在技術水平方面明顯弱勢(但已有大量的qq使用者群作為支撐),其搜尋結果不盡理想。 同時,作為工業界的搜尋引擎,與研究領域的搜尋引擎還有較大的不同,其主要特點就是工業界的搜尋引擎往往採用研究領域已成熟的技術,但同樣對各種參數進行了精細的調整。他們有大量的使用者搜尋記錄和點擊資料,可以更客觀的對各種參數的效果進行測試。 (搜狗公布一部分過時的搜尋記錄,公布作為外界研究之用)
其三: 人們存在使用習慣和先入為主的觀念。早年QQ和UC之爭就證明了這一點。
綜上三點,可以說通用搜尋引擎是小企業摸都摸不得的領域。 那麼是否在這個行業,我們就無能為力了呢? 在市場營銷方面,有細分市場的概念,就是找准一小部分客戶群,並針對性的最佳化,給予更舒適的高校的集中的搜尋結果。
二 技術實現
目前最熱門的細分領域有:(1) 垂直檢索 (2)即時檢索。 垂直檢索就是針對某個特定的行業的專用搜尋引擎。即時檢索即使用者對結果的即時性要求非常高。 (這裡說的即時性泛指,一般在嵌入式領域,即時系統都是毫秒級的反應才叫做即時系統,而在檢索領域,即時系統其實是所謂的弱勢是系統,一般目標網站更新5分鐘以內抓到資料即可認為是即時的)。 同時,即時檢索往往也是垂直檢索,如果是通用性的檢索,是完全不可能做到即時的。(必須假定這個搜尋引擎伺服器的處理能力和頻寬都無限強才可以實現)。 而垂直檢索往往只關注,同一個行業有代表性的若干網站,處理能力和資料量自然大為減少,故而易於達到即時性。
垂直檢索已出現在我們互連網生活中的方方面面之中,試舉幾例:
(1) 天涯社區, 在剛開始的時候即是通過抓取大量其他網站資料積累起了大量的客戶群。 雖然這種做法現在已經不行,但不可否認其當時對一個零資料網站所代表的意義。
(2) 各種招聘類網站,房產網站基本上都使用了垂直檢索的相關技術,這樣可以使得網站內容更為豐富。也容易吸引使用者。
垂直檢索從技術角度考慮,也與通用檢索實現不同。 通用檢索麵對的是非結構化的資料,儲存時使用索引的方式。而垂直檢索通過特定的模板匹配,講抓取到的非結構化資料轉化為結構化資料,並儲存於資料庫中,而查詢則通過使用資料庫和索引相結合的方式來實現。 這種有序的結構化的資料即是垂直檢索優越性的基石。
即時檢索對即時性的要求導致爬去技術的改變。 對於實施爬去技術,一般有兩大類,第一類最原始的方法即是人工發現目標行業網站的最新更新列表,並間隔極短的時間反覆抓取這個更新列表,以這個列表為爬去入口獲得資料。 第二類則是通過機器學習的方法,對網站進行一段時間的跟蹤,並擷取每個頁面的更新頻率資訊,講更新頻率最快的網頁作為實施爬去的目標網頁。
下面嘗試通過一個即時檢索的案例來說明上述技術要點。豆沙網(http://www.docshare.org)是一個小說即時檢索引擎,同時也是垂直檢索引擎。 他的主要目標是提供小說的即時更新提醒。下面我們分塊介紹該系統:
(1)爬虫部分: 首先根據A5等站長網站的統計擷取比較熱門的小說網站列表,然後手工分析得到其最新更新列表的地址,使用HtmlParser等開源類庫對網頁的連結進行分析,提取出書籍名稱,章節名稱,章節地址等資訊。
(2)資料的儲存: 將抓取到的資料存放區資料庫中的書籍表,章節表等表格中,並為書籍建立索引。
(3)web前端: 為每一位使用者維護一個書架,並為使用者展示書架中書籍的更新情況。 記錄使用者最晚的閱讀時間和章節,有新章節的時候給予提示。 對於使用者給出的查詢請求,從索引中擷取匹配項返回給使用者,允許使用者將返回結果加入書架。
(4) 提供根據分類的導航資訊。
對於房產類網站,其技術基本相同,不同的是被抓取的實體不是小說和章節,而是房產發布和需求資訊。而又可細分為出租,求租,出售,求購。按房產的類型又可以分為二手房,新房,期房等。
三 盈利模式
對於通用搜尋引擎,其主要盈利模式就是與內容匹配的廣告和競價排名。 從這個角度講,百度其實是一家廣告公司。 他的百度推廣和百度聯盟是其主要贏利點。 而垂直檢索,則往往根據其行業不同,提供不同的收費服務,例如房產類網站通過收取中介費獲得盈利。而小說搜尋則出賣出口流量獲得收益。
綜上所述, 在通用搜尋引擎市場過飽和度今天,小巧靈活貼心的垂直檢索和即時檢索不失為一個出路。