仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
本文先引用幾句話:
1.「確解使用者之意,切返使用者之需。 」
2.「入口網站都想著是怎樣省錢,而不是怎樣花錢來買技術。 」
3.「搜尋引擎不是人人都能做的領域,進入的門檻比較高。 」
4.「只是優秀還不夠,最好的方式是將一件事情做到極致。 」(google十大真理)
5.「做搜尋引擎需要專注」 「對於一項排到第四的業務,門戶很難做到專注。 」
6.「使用者無法描述道他要找什麼,除非讓他看到想找的東西。 」
7. 「所謂楔形,其實就是個倒三角,倒三角的尖端部分代表搜索技術,中部是基於技術的產品應用平臺,最上端是對整個搜尋引擎使用者人群文化的認識和理解,以及現代公司競爭最關鍵也最捉摸不定的所謂品牌。 」 「楔形」蘊涵的另一個意義是:楔子要打到牆裡,尖端是否銳利很重要,但楔子的破壞性有多強,究竟能在牆面擠壓出多大的空間,其中端、後端的沉穩與厚重才是關鍵。
搜尋引擎的技術和理念都是需要時間和經驗的積累
更是需要長期不斷的完善進步的,絕對不要認為可以一蹴而就,要達到一個相對成熟領先的搜尋引擎從開始到領先的週期一般需要是四年。 著急不得。 原因是因為搜尋引擎太複雜,而且「使用者無法描述他要找什麼,除非讓他看到想找的東西。 」 一切都需要摸索,嘗試,問題需要一個一個解決,使用者的需要得一點點的挖掘。
搜尋引擎是一個產品,給使用者提供服務的產品
需要長期的不斷的改進升級調整才能持續不斷的提使用者體驗,需要滿足使用者不斷增長並且變化的需求、需要不斷適應網路的變化。 這是因為網路環境是不斷變化的、線民的需求也是不斷變化的。 千萬不要把搜索當成專案來做,做完了撂那讓使用者去用那你肯定沒戲。 在搜尋引擎領域是講體驗的、新的引擎如果使用者體驗一旦整體上有領先一年以上的差距並且持續2年,那前期的領先者的優勢就蕩然無存,因為搜尋引擎的使用者轉移成本相對而言是比較低的而且口碑是最佳的傳播方式。 如果一個搜尋引擎不能持續不斷的技術創新理念創新,那對於這個搜尋引擎來說就等於死亡。 我們一般形容搜尋引擎的領先是以時間計算的。 比如:中搜離百度整體差距×年,百度離google的整體差距×年,...... 只要你能在使用者體驗上保持一年的領先優勢持續2年,不需要炒作,一切紛至遝來。 在使用者體驗面前,任何的炒作都顯得很渺小。
作垂直搜尋引擎,麻雀雖小,但是五臟俱全。
無論理念文化、產品管理、應用、技術都和搜尋引擎的楔形理論沒有什麼區別。 所以要做好一垂直搜索必須解決這幾個方面。
楔形的尖:垂直搜索技術。
垂直搜索技術主要分為兩個層次:範本級和網頁庫級。
範本級是針對網頁進行範本設定或者自動生成範本的方式抽取資料,對網頁的採集也是針對性的採集,適合規模比較小、資訊源少且穩定的需求,優點是快速實施、成本低、靈活性強,缺點是後期維護成本高,資訊源和資訊量小。 網頁庫級就是在資訊源數量上、資料容量上檢索容量上、穩定性可靠性上都是網頁庫搜尋引擎級別的要求,和範本方式最大的區別是對具體網頁不依賴,可針對任意正常的網頁進資訊採集資訊抽取......。 這就導致這種方式資料容量上和範本方式有質的區別,但是其靈活性差、成本高。 當然範本方式和網頁庫級的方式不是對立的,這兩者對於垂直搜尋引擎來說是相互補充的,因為技術只是手段,目的是切反使用者之需。 本文談及的技術主要是指網頁庫級別垂直搜尋引擎技術。
搜尋引擎的確是一項對技術要求比較高的應用,幾年前相關的人才也比較少。 現在搜索技術人才多了,相關的技術和技術的應用得相對以前而言更加成熟,但是競爭也更加激烈了。
垂直搜索大致需要以下技術:
1. 資訊採集技術
2. 網頁資訊抽取技術
3. 資訊的處理技術,包括:重複識別、重複識別、聚類、比較、分析、語料分析等
4. 語意相關性分析
5. 分詞
6. 索引
資訊採集技術,垂直搜尋引擎spider和網頁庫的spider相比應該是更加專業,17813.html">可定制化。 可定向性的採集和垂直搜尋範圍相關的網頁忽略不相關的網頁和不必要的網頁,選擇內容相關的以及適合做進一步處理的網頁深度優先採集、對頁面有選擇的調整更新頻率......,採集可通過人工設定網址和網頁分析url方式共同進行。