仲介交易 SEO診斷 淘寶客 雲主機 技術大廳
垂直搜索對資訊的更新有著特別的要求,根據這些特點可以從以下幾點考慮:
1.資訊源的穩定性(不能讓資訊源網站感覺到spider的壓力)
2.抓取的成本問題
3.對使用者體驗改善程度。
根據以上幾點制定一種比較好的策略,要做到恰到好處。
策略上可以評估網站/網頁更新的係數、網站/網頁的重要係數、使用者點擊係數(或曝光係數)、網站穩定係數......,根據這些係數來確定對這些網站/網頁更新的頻率。 再由於新資訊和更新了的資訊list頁面前面或者首頁,所以對網頁進行很好的分級可以以低成本很好的解決更新問題,係數比較低的網頁一月update一次,稍微高點的一周update一次、中等的幾天到一天一次、 高的幾小時到幾分鐘一次。 類似搜尋引擎的大庫、周庫、日庫,小時庫......
基於視覺網頁塊分析技術,類比IE瀏覽器的顯示方式,對網頁進行解析。
根據人類視覺原理,把網頁解析處理的結果,進行分塊,再根據需要,對這些塊進行處理,如:採集定向、介紹抽取和一些必要的內容的抽取正文抽取......
結構化資訊抽取技術,將網頁中的非結構化資料按照一定的需求抽取成結構化資料。
有兩種方式,簡單的就是範本方式,另外就是對網頁不依賴web結構化資訊抽取方式,這兩種方式可以互取長處,以最簡單最有效的辦法滿足需求。 垂直搜尋引擎和通用搜尋引擎最大的區別就是對網頁資訊結構化抽取後再結構化資料進行深度的處理,提供專業的搜索服務。 所以web結構化資訊抽取的技術水準是決定垂直搜尋引擎品質的重要技術指標。 其實web結構化資訊抽取在百度、google早已經廣泛應用了,如:MP3、圖片搜索、google的本地搜索就是從網頁庫抽取出公司資訊,添加到其地圖搜索中的,google通過這種技術正在顛覆做內容的方式。 同樣的技術應用還在qihoo、sogou購物、shopping等各種應用中體現。
簡單的語法分析,簡單的語法分析在搜尋引擎中非常重要,可以通過簡單的語法分析來改善資料的品質,低成本的獲得某類資訊,改善排序,尋找需要的內容......
資訊處理技術,資訊處理包括的範圍比較廣
主要包括去重、聚類、分析......,這根據需要相關的技術就非常多。
資料採礦,找出您的資訊的關聯性對於垂直搜索來說非常重要,有效,可以在這些相關性上為使用者提供更細緻的服務。
分詞技術,面向搜索的分詞技術,建立和您的行業相關的詞庫。
注意這是面向搜索的分詞,不是面向識別和準確的分詞。 就這個工作安排十幾個人不停的維護也不會嫌多。
索引技術,索引技術對於垂直搜索非常關鍵,一個網頁庫級的搜尋引擎必須要支援分佈索引、分層建庫、分佈檢索、靈活的更新、靈活的權值調整、靈活的索引和靈活的升級擴展、高可靠性穩定性冗余性。 還需要支援各種技術的擴展,如偏移量計算等。
其它技術,略。
垂直搜尋引擎的技術評估應從以下幾點來判斷
1. 全面性
2. 更新性
3. 準確性
4. 功能性