仲介交易 SEO診斷 淘寶客 雲主機 技術大廳
如果說有什麼發明拯救了互聯網?那一定是搜尋引擎。 搜索的早期形態是啥?搜索經歷的多少次變革?不妨總結一下搜尋引擎發展的歷史,發現其中的脈絡。
如果說有什麼發明拯救了互聯網?那一定是搜尋引擎,否則互聯網中的資訊越多,它本身崩潰得越快,因為人們找到自己需要的資訊也就越難,使用體驗也就越差。 搜索的早期形態是啥?搜索經歷的多少次變革?未來的搜尋引擎將變成怎樣?不妨總結一下搜尋引擎發展的歷史,發現其中的脈絡。
其實,搜索的需求——從眾多東西(主要是資訊)中尋找自己要的,人類一直都有,只不過在IT技術發展之前,所有資訊都沒有數位化,搜索唯一可行的表現形式是紙質的目錄、索引、電話簿。 廣域網路產生以後,搜索的需求存在,但技術沒有對應的迅速發展,因此互聯網搜索的最早形式是網址簿。 具體形式和電話簿、黃頁相似,記錄很多知名網站網址的一本書,大小視專業程度而定。 筆者自己就買過一本普通線民適用的,大小薄厚類似一本新華字典,按網站內容的不同分類。
紙質的有了,網路版的很快跟上。 1994年,楊致遠創建雅虎,並開始人工搜集各類網站的網址,並將它們按一定規律分類、排序,線民可以只記住雅虎的網址,之後通過雅虎進入各個門類的網站,紙質的網址簿立即變得多餘。 部分互聯網業內人士將雅虎用人工搜集網址並分類呈現的目錄式搜索稱為第一代搜尋引擎,也有部分互聯網專家認為雅虎這類做法並不能嚴格稱為搜尋引擎,而應算作最早的網址導航。 筆者傾向于將其算作搜索實現形式中的一種,甚至包括網址導航也是如此。
但雅虎畢竟只是將紙質目錄搬到了互聯網網頁上,肉眼查找和不同人對網站分類的理解都降低了這類搜索的使用效率。 於是根據關鍵字進行自動查找的功能也被應用進搜尋引擎,這其實並不難實現,因為根據關鍵字進行全文檢索的技術甚至早在電腦剛剛被發明的上世紀50年代就已經出現(國內的中文全文檢索技術最早被作為748工程的一部分, 于80年代後期基本完成,但被廣泛應用已經是90年代的事了)。
第一代搜尋引擎唯一的問題是,網址仍然由人工收集,效率低、易出錯、不全面。 於是互聯網急需一種替代人工收集網址的技術,而說到替代人工,人們必然會聯想到的是機器人,於是第二代搜尋引擎所依仗的就是機器人,用程式鑄造、組裝的游走在互聯網中的機器人,現在它被人們熟知的名字是搜索爬蟲或者搜尋引擎蜘蛛。 事實上,這種技術的出現還早于楊致遠的雅虎,甚至早于萬維網的誕生。
1990蒙特利爾大學學生Alan Emtage發明的Archie。 雖然當時World Wide Web還未出現,但網路中檔案傳輸還是相當頻繁的,而且由於大量的檔散佈在各個分散的FTP主機中,查詢起來非常不便,因此Alan Emtage想到了開發一個可以以檔案名查找檔的系統, 於是便有了Archie。 Archie工作原理與現在的搜尋引擎已經很接近,它依靠腳本程式自動搜索網上的檔,然後對有關資訊進行索引,供消費者以一定的運算式查詢。 由於Archie深受使用者歡迎,受其啟發,美國內華達System ComputingServices大學于1993年開發了另一個與之非常相似的搜索工具,不過此時的搜索工具除了索引檔外,已能檢索網頁。
現在的主流搜尋引擎:谷歌、必應、百度等均採用了搜索爬蟲抓取、下載網頁,以取代人工,這些搜索爬蟲每一定天數(例如谷歌是28天)進行一次全互聯網的抓取,將所有網頁結果下載至自己的伺服器,等待再由人們通過輸入關鍵字提起搜索申請。
機器人抓取網頁的工作效率明顯高於人工,再加上用關鍵字進行檢索,新一代搜尋引擎的登場時間理應早于目錄式搜索和網址導航才對。 但問題在於:互聯網中的資訊實在太多了,搜索爬蟲拿回來的網頁,人幾乎無法再次進行分類,而僅僅經由關鍵字進行檢索,人們依然要從一團亂麻中肉眼查找自己想要的內容,這個使用體驗還不如直接使用目錄。
這個問題的解決誕生了現今搜索領域的最強者,也是世界上最偉大的公司之一——谷歌。 上世紀90年代後期,就在雅虎取得成功,讓人們看到搜索的巨大需求之後,當時在斯坦福大學攻讀理工博士的Larry Page 和 Sergey Brin開發出PageRank演算法, 用於衡量特定網頁相對於搜尋引擎索引中的其他網頁而言的重要程度。 這項演算法基本可以理解為投票,最重要的部分是計算每個網頁與其他網頁之間連結的多少,鏈向某個搜尋結果的網頁越多且權重越高,那麼這個搜尋結果也就越重要。 谷歌用這個辦法解決了搜尋結果排序的問題,以此取代了目錄式的分類,也用搜索爬蟲加PageRank的辦法取代了雅虎最早提出的搜尋引擎解決方案。 部分業內人士把谷歌為代表的這一代搜尋引擎稱為第二代搜尋引擎,也有人認為這才是真正意義上的搜尋引擎,筆者比較支援前一種說法。
中國的搜尋引擎歷史基本是直接從第二代搜尋引擎開始的,時間是1999年,百度、中搜等老牌搜尋引擎廠商從一開始就採用了搜索爬蟲和排序演算法的組合(當時還有3721提供網址導航服務,但時間與百度、中搜等幾乎重合)。 與谷歌、雅虎不同,當時的百度、中搜,都主要為入口網站提供搜索技術的後臺服務,而沒有自己的呈現網站。 直到谷歌和雅虎在本世紀初進入中國,百度、中搜以及後來的搜搜、搜狗和再後來的360才開始有了自己的搜尋引擎網站。
歷史似乎到此結束,但以上說到的最晚時間點距現在還有十年之久,搜素引擎在這十年也並非一成不變。
前面說到的搜尋引擎爬蟲加排序演算法只能解決現在的網頁搜索功能,目前世界上所有的搜索爬蟲都只能用較長時間(20天以上)實現一次全網抓取,對於更新頻率稍慢的網頁,這個速度是合理的。 但對於更新頻率較快的互聯網中的新聞,這個方法就顯得太過笨重。 國內部分業內人士認為隨著搜索技術和互聯網速度的不斷增強,這個問題會自然隨之解決,但事實上至今網頁搜索仍未能承擔搜索新聞的工作,現在人們通過專門的新聞搜索技術查找自己想看的新聞。
國內最早為入口網站提供新聞搜索技術服務的是中搜,時間是2003年。 他們將原來全網抓取網頁內容的搜索爬蟲限定在少數幾百個選定的新聞源網站範圍內,這樣就將看似無邊無際的互聯網大大縮小,全部抓取一次的時間從幾天變成了幾分鐘甚至幾十秒。 而一旦新聞源本身出現變動,只需將其加入或剔除自己選定的新聞源範圍即可。 這種技術和曾經大熱的RSS閱讀技術有些類似,但後者因為需要資訊的源頭符合RSS的格式,所以正在逐漸萎縮,谷歌的RSS閱讀產品Greader就在2013年夏天正式停止了服務。 此外新聞搜索的排序規則也略有不同,更加注重時間、相關性、發佈媒體等等權重。
與新聞搜索類似的,搜索特殊類別資訊的特殊搜索技術還有圖片搜索、視頻搜索、比價搜索等等。 此外,由於互聯網中的資訊實在過於龐大,通用搜索很難對所有資訊都做到專業、精准、及時,因此一些專門針對某個行業或領域的垂直搜索也應運而生。 其原理大多是和新聞搜索類似:縮小搜索爬蟲活動的範圍,再適當修改排序規則。
中搜對國內乃至整個搜索技術的貢獻還在於,第一次嘗試了搜索的更高級形式——個人門戶,2004年,他們發佈個人資訊門戶瀏覽器,英文縮寫是PIG,因此也被稱為網路豬。
之所以把個人門戶稱為搜索的更高級形式,是因為此前的搜尋引擎都是被動的等著人們主動輸入關鍵字提出搜索申請,而能夠讓搜索變被動等待為主動提供服務的方式就是個人門戶。 如果搜索始終等待使用者輸入關鍵字,那麼它就始終難以擺脫工具的角色,與目錄、電話簿之間的區別只在形式和效率之間。 此外,主動為使用者提供服務還能被更多的關注、使用,獲得更多的廣告收益。 因此主動和被動,不僅僅是一個服務形式的問題。
入口網站顧名思義,是力求為線民提供最大資訊量,解決最多互聯網訴求的「超市」,但前面如果加上個人,主要訴求就在全面之外又加上了精准。 似乎整個互聯網中也只有利用關鍵字進行檢索的搜索能夠提供全面且精准的資訊服務。 中搜的做法是允許使用者自己訂閱搜索關鍵字,再自由組合成一張首頁,所有訂閱關鍵字的搜尋結果都第一時間呈現給剛一打開瀏覽器的線民。
在此之後谷歌也推出了自己的個人主頁產品——igoogle,並且功能更為豐富(增添了天氣、股票等等)。 但個人門戶產品並沒有像傳統的搜尋引擎那樣獲得成功,至少在桌面互聯網是這樣,「網路豬」和igoogle都沒有獲得搜索廠商們心目中的理想結果,後者還于2013年冬天和Greader一樣停止了服務。 其他力求主動為線民提供搜索服務的嘗試還包括雅虎,他們也允許線民訂閱搜索關鍵字,之後每天會將搜尋結果的更新主動發送至使用者的郵箱中。
中國國內對搜索的創新還不得不提百度的競價排名機制:渴望宣傳自身的企業按與自己相關的搜尋結果的點擊次數付費給搜尋引擎廠商,企業的推廣資訊出現在搜尋結果中,由單次點擊付費高低決定結果的排序(付費高者靠前)。 儘管備受業內指責,但這一機制還是解決了搜尋引擎廠商的吃飯問題,因此才能擺脫為其他網站提供後臺服務的角色,同時肇始者獲得的暴利也吸引了更多玩家跟進投入搜尋引擎市場,促進了技術、市場的繁榮。
但以上嘗試都是在第二代搜尋引擎的基礎上進行的,無論針對類別、展示形式還是盈利模式。 這一代搜尋引擎雖然用搜索爬蟲解決了對搜尋結果巨量、全面的需求,但僅用關鍵字和PageRank一類排序方法是無法實現完全精准的。 無論英文還是中文,同一個關鍵字出現多種含義再平常不過,而再好的排序方式也不可能將每個人真正需要的結果都全部放在前幾頁,每個人搜索的結果都可能出現在第一百頁、一千頁甚或一萬頁之後,因為互聯網中的資訊實在實在太多了, 並且還可能有不斷重複的資訊出現。
對下一代搜尋引擎的嘗試已經開始,2011年國內的搜尋引擎廠商中搜發佈上線第三代搜尋引擎平臺,算是第一個打起第三代搜索旗子的。 中搜宣稱自己是第三代的原因是:區別于第一代純粹用人工收集搜尋結果和完全第二代用搜索爬蟲抓取結果,他們的搜尋引擎採用人機結合的辦法:即用搜索爬蟲繼續收集網頁,解決搜尋結果的量的問題,但用人工將搜尋結果進行分類、整理, 解決搜尋結果的準確。 前面筆者曾說過這是個不可能完成的任務,中搜給出的解決辦法是允許每個線民參與到這個過程中,他們將整個搜索開放,任何人對搜尋結果有不同意見,有不同想法都可以提出修改,不同于百度使用者只能接受搜尋結果。 中搜的搜尋結果呈現方式也有所改變,成為了針對某個關鍵字含義的類似門戶專題的多框頁面(區別于其他搜尋引擎的目錄式結構),同一關鍵字的不同含義分別有完全不同的專題頁面呈現。
此後國內一大批「第三代搜索」跟風而至,但無論優劣,其搜尋結果的收集、呈現方式並未如同中搜,與現有第二代搜尋引擎有任何明顯差異,宣稱「第三代」未免空穴來風。
2012年,谷歌也宣佈推出知識圖譜,與中搜的呈現方式類似,也具有很強的延展性,將與關鍵字相關的資訊展示在邊條。 2013年初百度也作出了類似調整,但這些都是以技術方式實現的,沒有添加人工。 谷歌更重要的新一代搜索嘗試還包括將搜索遷移進專門的硬體——谷歌眼鏡,雖然目前還不能確定其能否獲得成功,但指明的方向已經清楚:未來的搜索將和人們的生活離得更近,很可能不局限于文字輸入請求和表達結果,也不局限于2維世界。
不過,對普羅大眾而言,眼下更為現實的嘗試則是移動搜索的種種創新。 還是中搜,將第三代搜索遷移到移動端之外,他們又重新操起個人門戶。 2013年末,中搜發佈中搜搜悅移動個人門戶,其中除搜索、新聞等功能,還添加了網址導航、應用商店、協力廠商評價、生活服務等多個搜索在移動端可能實現的主要功能,和之前的個人門戶一樣,中搜搜悅也能夠接受使用者的訂閱, 並主動呈現搜尋結果的更新,更為主動的是它能夠用移動互聯網的方式推送給使用者。
作者:李瀛寰 微信公眾號:yinghuanlee