仲介交易 SEO診斷 淘寶客 雲主機 技術大廳
垂直搜索是針對某一個行業的專業搜尋引擎,是搜尋引擎的細分和延伸,是對網頁庫中的某類專門的資訊進行一次整合,定向分欄位抽取出需要的資料進行處理後再以某種形式返回給使用者。
垂直搜尋引擎和普通的網頁搜尋引擎的最大區別是對網頁資訊進行了結構化資訊抽取,也就是將網頁的非結構化資料幫浦成特定的結構化資訊資料,好比網頁搜索是以網頁為最小單位,基於視覺的網頁塊分析是以網頁塊為最小單位, 而垂直搜索是以結構化資料為最小單位。 然後將這些資料存儲到資料庫,進行進一步的加工處理,如:去重、分類等,最後分詞、索引再以搜索的方式滿足使用者的需求。
整個過程中,資料由非結構化資料幫浦成結構化資料,經過深度加工處理後以非結構化的方式和結構化的方式返回給使用者。 垂直搜尋引擎的應用方向很多,比如企業庫搜索、供求資訊搜尋引擎、購物搜索、房產搜索、人才搜索、地圖搜索、mp3搜索、圖片搜索...... 幾乎各行各業各類資訊都可以進一步細化成各類的垂直搜尋引擎。
舉個例子來說明會更容易理解,比如購物搜尋引擎,整體流程大致如下:抓取網頁後,對網頁商品資訊進行抽取,抽取出商品名稱、價格、簡介...... 甚至可以進一步將筆記本簡介細分成「品牌、型號、CPU、記憶體、硬碟、顯示幕、......」然後對資訊進行清洗、去重、分類、分析比較、資料採礦,最後通過分詞索引提供使用者搜索、通過分析挖掘提供市場行情報告。 垂直搜尋引擎大體上需要以下技術
1.Spider
2.網頁結構化資訊抽取技術或中繼資料採集技術
3.分詞、索引
4.其他資訊處理技術
垂直搜尋引擎的技術評估應從以下幾點來判斷
1.全面性 2.更新性 3.準確性 4.功能性 垂直搜索的進入門檻很低,但是競爭的門檻很高。 沒有專注的精神和精湛的技術是不行的。
行業入口網站具備行業優勢但他們又是沒有技術優勢的,絕對不要想像著招幾個人就可以搞定垂直搜索的全部技術,作為一個需要持續改進可運營的產品而不是一個專案來說對技術的把握控制程度又是垂直搜索成功的重要因素之一。