搜尋引擎工作原理的三個階段:
1.爬行和抓取
2.預先處理
3.排名
前天在A5上發過搜尋引擎工作原理之爬行與抓取http://www.admin5.com/article/20110630/356286.shtml,有興趣的可以去看下,現在接下去講預先處理,搜尋引擎通過爬行和抓取以後存入資料庫的原始頁面,並不能直接用於查詢排名處理。你可想像搜尋引擎收錄了多少的頁面,如果等使用者輸入關鍵字再去進行運算排名,這顯然是不現實的,所以這些頁面就先經過預先處理,這樣在使用者輸入關鍵詞時,排名程式就調用資料庫裡已經經過前置處理過的資料,然後計算排名並顯示給使用者看。
我們以百度為例,搜尋引擎會提取網頁檔案中的文字內容,然後根據這個內容進行中文分詞,比如“彎管機價格”,將被分為“彎管” “彎管機” “價格”這三個詞,看到這裡你就會明白為什麼我以前在文章中提到不要進行關鍵詞堆積,因為堆積會有被認為作弊,不堆積也可以達到差不多的效果,所以說瞭解搜尋引擎工作原理是非常重要的。
中文中常有一些詞出現在頻率非常高,但實際上對內容沒有任何影響,比如“的”“地”“得”“啊”“呀”之類的,這些詞被稱為停止詞,搜尋引擎去去些停止詞,使主題更加突出。還有就是比如網站都會有的著作權資訊,廣告之類的東西,這個一般也會去掉。在這些之後,搜尋引擎還會去頁面進行去重,就是同一篇文章經常會重複出現在不同網站,會重複資料刪除內容。這點不是絕對的,因為種種原因,重複內容還是會存在,但我們最好還是堅持原創,至少得偽原創,這裡說一下,所謂的偽原創應該怎麼做,先繼續說完去重之點,之後你就會明白應該怎麼去做偽原創,去重的基本方法是對頁面特徵關健詞進行計算,也就是對頁面主體內容中選取最具有代表性的一部分關鍵詞,這部分關鍵詞經常是出現頻率最高的關鍵詞,一般會選取十個左右,所以你簡單的改個段首,改變段落順序也不能使文章變為原創,所以關鍵是改變關鍵詞,比如文中的關鍵詞是電腦,你就改成電腦,總之把出現頻率最高的的關鍵詞替換掉,這樣才有可能達到原創的結果。
經過以上步驟,搜尋引擎提取頁面上的關鍵詞,按照分詞程式劃分好的詞,把頁面轉換成一個關鍵片語成的集合,同時記錄每一個關鍵詞在頁面上的出現頻率,位置等等,這樣,每個頁面就被記錄成一串關鍵詞集合。然後再按關鍵詞進行排列,每個關鍵詞對應一系列的頁面,當使用者搜尋這個關鍵詞時,排序程式就找到這個關鍵詞,然後就可以看到有這個關鍵詞的所有的頁面了。
還有補充的一點就是連結關係,頁面上有哪些連結指向哪些頁面,每個頁面有哪些匯入連結,連結使用了什麼錨文字,這些複雜的連結指向關係形成了網站和頁面的連結權重。這個要講起來得花很多的時間,以後如果有空的話我再單獨寫一下。
明天有空的話會寫排名原理,今天還有好多事要做,本文由張家港彎管機 http://www.zjgjixie.com站長撰稿,轉載請留連結。另需相關企業類,機械類網站做友情連結,有的請加QQ:26043721