看了許多seo參考書總覺得這些書對搜尋引擎收錄原理說的太籠統,不能夠很好的理解,今天我花一天時間來說清楚搜尋引擎收錄的原理,如有問題,望各位seo高手予以斧正,小弟不勝感激。
搜尋引擎爬蟲,蜘蛛,機器人是什麼?-搜尋引擎收錄原理
搜尋引擎為了能夠讓自己的資料庫足夠的強大,足夠的全面,不分晝夜的在網路上尋找新的,更可靠的資訊,但是隨著網路時代到來,網路資訊爆炸式的整張,人工根本不可能完成這樣的任務,因此,搜尋引擎擁有者開發出來一套程式, 用來不分晝夜的抓去資訊,然後整理,分類資訊,最後將這些資訊索引到自己的資料庫中。
這種不分晝夜抓取網站資訊的程式的名字很多,比如:蜘蛛,爬蟲,機器人,探測器。 一般搜尋引擎可以同時派出N多個爬蟲程式,它們通過URL一個頁面一個頁面的抓去網站的標題,描述,圖片,網站內容等,然後把抓去回來的資訊放在專用的倉庫中,等待索引。
但是網站的設計者,並不能保證自己設計的網站是天衣無縫的,都會有很多問題:比如說網頁中出現死連結,網頁內容過多等,都導致爬蟲程式無法正確的抓取完整個頁面的內容,或許爬蟲只抓去了這個頁面的頭部, 在抓去身子的時候發現自己存儲資訊的地方不夠了,不得不離開。 所以我們在設計網站的時候都應該注意這些問題,建議各位網站設計者能夠把網頁設計的容易讓爬蟲接受。
Google的兩個爬蟲程式原理介紹
下面我們以搜尋引擎中做的最好的google為例,分析搜尋引擎是如何抓取資訊,如何處理資訊。
Google爬蟲程式擁有2種:刷新爬蟲,和深度探測爬蟲,刷新爬蟲部分晝夜的將抓取來的資訊放在一個特定的資料庫中,由於刷新爬蟲個和主要索引程式一起提供搜尋結果,有的時候您會發現,你的頁面更新突然出現在搜尋結果頁面, 但是過了一會又突然消失了,這是因為刷新爬蟲在不停的抓去資訊,不停的重寫,給我的感覺是刷新爬蟲的存儲機制影響比較像資料結構中的棧,先進後出,後就進先出,消失的這段時間各位seo不要著急, 還是那個樣子不停的更新1月後就會慢慢出現在搜尋結果中,不過現在可能等待時間沒有那麼長。 如果你的頁面已經在搜尋引擎的索引中出現,刷新爬蟲一旦發現你的更新,爬蟲程式會很快的將您的更新顯示出來,但是還是不夠穩定,要一直等到深度爬蟲更新主要索引,您的頁面才能夠足夠的穩定。
下面我們用簡單的流程介紹下搜尋引擎收錄過程:
刷新爬蟲程式--------》發現資訊----------》抓取資訊----------》放在專用資料庫-----------》等待索引整理----------》索引整理(深度爬蟲訪問主要索引)-------》索引完成, 某關鍵字的排名都已經計算好-------》等待使用者搜索--------》奉上結果。
搜尋引擎提供的結果有幾種?
搜尋結果提供的搜尋結果有二種,建議各位seoer都應該做上,本人正在學習中,希望能得到高手指點一二。
三種搜尋結果1內容索引結果2特別索引結果,前者是對網頁的關鍵字,標題,描述,連結源頭文字等文字形式的索引和壓縮。 後者包含圖片索引,PDF檔索引等比較特殊的索引,建議各位seoer不要小看第二種搜尋結果,這個也是能帶來相當大的流量的。
總結:搜尋引擎收錄原理基本上就是這些了,如果有什麼問題請及時予以斧正,小弟改,呵呵。