仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
現在的搜尋引擎往往不單單採取某種排序演算法,他們往往將多重排序演算法融合在一起,達到一個更佳的排序效果。 因此,搜尋引擎的排序流程涉及搜尋引擎的每個環節。 總體來說,我在優化長株潭應屆生網時發現,搜尋引擎排序演算法主要涉及以下幾個環節:網頁抓取環節、離線分析環節以及使用者查詢環節。
一、網頁抓取環節。 搜尋引擎一般利用爬蟲,通過網頁的連結關係到網上抓取頁面。 網頁抓取環節是搜尋引擎資料積累的過程。 在網頁抓取環節,爬蟲需要記錄網頁的連結關係,網頁的錨文本,網頁更新時間網頁等網頁資訊。 然後對網頁進行解析,除噪,得到網頁的主題內容和網頁之間的連結關係。 然後通過分詞工具對頁面內容進行分詞,統計網頁中的TF,TP(詞位置資訊)等資訊。 最後,爬蟲將這些資訊保存到一個大的索引庫當中去,為搜尋引擎提供檢索的資料。 (以上資訊離線計算)
二、離線分析環節。 網頁的抓取非常耗時,而且不可能一次性把網上的所有頁面全部抓取下來。 一般來說,搜尋引擎都是隔一段時間對網路抓取一次,將新抓取的頁面更新到索引中去。 在網頁抓取下來以後,需要統計索引庫中網頁的IDF值,然後根據網頁的連結關係,計算網頁的PageRank值等。 (以上資訊離線計算)
三、使用者查詢環節。 使用者查詢時,使用者向搜尋引擎提交查詢資訊。 搜尋引擎對查詢資訊進行預處理,包括分詞,停頓詞過濾等,向索引庫提交解析後的查詢準則。 根據上面得到的TF,TP,DF以及網頁PageRank值,融合使用者回饋資訊,網頁更新時間等因素,得到最終的網頁得分。 最後將得到的網頁根據最終得分由高到底展現給使用者,供使用者流覽。 (線上計算)
在以上三個環節當中,前面兩個環節相對來說計算量非常大,而且非常耗時,所以是在使用者進行查詢之前就先進行了。 這兩個步驟為第三個步驟進行了大量的資料準備。 第三個步驟在使用者查詢的時候線上計算,所以對速度要求比較高。 搜尋引擎在排序演算法上要做到速度和品質的平衡因此,搜尋引擎的排序流程涉及搜尋引擎的每個環節,具體流程如圖:
轉載請注明轉自長株潭應屆生網 www.cztyjs.com。