武漢seo今天想聊聊搜尋引擎的蜘蛛的工作方式。先說說搜尋引擎的原理吧。搜尋引擎是把互連網上的網頁內容存在自己的伺服器上,當使用者搜尋某個詞的時候,搜尋引擎就會在自己的伺服器上找相關的內容,這樣就是說,只有儲存在搜尋引擎伺服器上的網頁才會被搜尋到。哪些網頁才能被儲存到搜尋引擎的伺服器上呢?只有搜尋引擎的網頁抓取程式抓到的網頁才會儲存到搜尋引擎的伺服器上,這個網頁抓取程式就是搜尋引擎的蜘蛛.整個過程分為爬行和抓取。
一、 蜘蛛
搜尋引擎用來爬行和訪問網站頁面的程式被稱為蜘蛛,也可稱之為機器人。蜘蛛訪問瀏覽器,就和我們平時上網一個樣子,蜘蛛同樣會申請訪問,得到允許後才可以瀏覽,可是有一點,搜尋引擎為了提高品質和速度,它會放很多蜘蛛一起去爬行和抓取。
蜘蛛訪問任何一個網站時,都會先去訪問網站根目錄下的robots.txt檔案。如果robots.txt檔案禁止搜尋引擎抓取某些檔案或目錄,蜘蛛將遵守協議,不抓取被禁止的網址。
和瀏覽器一樣,搜尋引擎蜘蛛也有表明自己身份的代理名稱,站長可以在記錄檔中看到搜尋引擎的特定代理名稱,從而辨識搜尋引擎蜘蛛。
二、 跟蹤連結
為了抓取網上盡量多的頁面,搜尋引擎蜘蛛會跟蹤頁面上的連結,從一個頁面爬到下一個頁面,就好像蜘蛛在蜘蛛網上爬行一樣。
整個互連網是有相互連結的網站及頁面組成的。當然,由於網站及頁面連結結構異常複雜,蜘蛛需要採取一定的爬行策略才能遍曆網上所有頁面。
最簡單的爬行的策略有:深度優先和廣度優先。
1、 深度連結
深度優先指當蜘蛛發現一個連結時,它就會順著這個連結指出的路一直向前爬行,直到前面再也沒其他連結,這時就會返回第一個頁面,然後會繼續連結再一直往前爬行。
2、 廣度連結
從seo角度講連結廣度優先的意思是講的蜘蛛在一個頁面發現多個連結的時候,不是跟著一個連結一直向前,而是把頁面上所有第一層連結都爬一遍,然後再沿著第二層頁面上發現的連結爬向第三層頁面。
從理論上說,無論是深度優先還是廣度優先,只要給蜘蛛足夠的時間,都能爬完整個互連網。在實際工作中,沒有什麼東西是無限的,蜘蛛的頻寬資源和蜘蛛的時間也是一樣都是有限的,也不可能爬完所有頁面。實際上最大的搜尋引擎也只是爬行和收錄了互連網的一小部分。
3.吸引蜘蛛
蜘蛛式不可能抓取所有的頁面的,它只會抓取重要的頁面,那麼哪些頁面被認為比較重要呢?有以下幾點:
(1) 網站和頁面權重
(2) 頁面更新度
(3) 匯入連結
(4) 與首頁點擊距離
4.地址庫
搜尋引擎會建立一個地址庫,這麼做可以很好的避免出現過多抓取或者反覆抓取的現象,記錄已經被發現還沒有抓取的頁面,以及已經被抓取的頁面。
地址庫中的URL有以下幾個來源:
(1) 人工錄入的種子網站。
(2) 蜘蛛抓取頁面後,從HTML中解析出新的連結URL,與地址庫中的資料進行對比,如果是地址庫中沒有的網址,就存入待訪問地址庫。
(3) 搜尋引擎內建的一種表格提供站長,方便站長提交網址
講到這裡,關於搜尋引擎已經差不多了,雖然對於真正的搜尋引擎技術來說只是一皮毛,不過對於SEO人員已經夠用了。原文地址:http://www.yidunseo.com/blog/gzfs.html 這是億盾武漢seo培訓學員部落格的第二篇文章,瞭解了這麼多之後是不是更有利於我們對自己網站的最佳化了捏!