哪些網頁才能被保存到搜尋引擎的伺服器上呢

來源:互聯網
上載者:User
關鍵字 搜尋引擎 抓取 伺服器

摘要: 搜尋引擎是把互聯網上的網頁內容存在自己的伺服器上,當使用者搜索某個詞的時候,搜尋引擎就會在自己的伺服器上找相關的內容,這樣就是說,只有保存在搜尋引擎伺服器上的網頁才

搜尋引擎是把互聯網上的網頁內容存在自己的伺服器上,當使用者搜索某個詞的時候,搜尋引擎就會在自己的伺服器上找相關的內容,這樣就是說,只有保存在搜尋引擎伺服器上的網頁才會被搜索到。 哪些網頁才能被保存到搜尋引擎的伺服器上呢?只有搜尋引擎的網頁抓取程式抓到的網頁才會保存到搜尋引擎的伺服器上,這個網頁抓取程式就是搜尋引擎的蜘蛛.整個過程分為爬行和抓取。

一、 蜘蛛

搜尋引擎用來爬行和訪問網站頁面的程式被稱為蜘蛛,也可稱之為機器人。 蜘蛛訪問瀏覽器,就和我們平時上網一個樣子,蜘蛛同樣會申請訪問,得到允許後才可以流覽,可是有一點,搜尋引擎為了提高品質和速度,它會放很多蜘蛛一起去爬行和抓取。

蜘蛛訪問任何一個網站時,都會先去訪問網站根目錄下的robots.txt檔。 如果robots.txt檔禁止搜尋引擎抓取某些檔或目錄,蜘蛛將遵守協定,不抓取被禁止的網址。

和瀏覽器一樣,搜尋引擎蜘蛛也有表明自己身份的代理名稱,站長可以在日誌檔中看到搜尋引擎的特定代理名稱,從而辨識搜尋引擎蜘蛛。

二、 跟蹤連結

為了抓取網上儘量多的頁面,搜尋引擎蜘蛛會跟蹤頁面上的連結,從一個頁面爬到下一個頁面,就好像蜘蛛在蜘蛛網上爬行一樣。

整個互聯網是有相互連結的網站及頁面組成的。 當然,由於網站及頁面連結結構異常複雜,蜘蛛需要採取一定的爬行策略才能遍歷網上所有頁面。

最簡單的爬行的策略有:深度優先和廣度優先。

1、 深度連結

深度優先指當蜘蛛發現一個連結時,它就會順著這個連結指出的路一直向前爬行,直到前面再也沒其他連結,這時就會返回第一個頁面,然後會繼續連結再一直往前爬行。

2、 廣度連結

從seo角度講連結廣度優先的意思是講的蜘蛛在一個頁面發現多個連結的時候,不是跟著一個連結一直向前,而是把頁面上所有第一層連結都爬一遍,然後再沿著第二層頁面上發現的連結爬向第三層頁面。

從理論上說,無論是深度優先還是廣度優先,只要給蜘蛛足夠的時間,都能爬完整個互聯網。 在實際工作中,沒有什麼東西是無限的,蜘蛛的頻寬資源和蜘蛛的時間也是一樣都是有限的,也不可能爬完所有頁面。 實際上最大的搜尋引擎也只是爬行和收錄了互聯網的一小部分。

3.吸引蜘蛛

蜘蛛式不可能抓取所有的頁面的,它只會抓取重要的頁面,那麼哪些頁面被認為比較重要呢?有以下幾點:

(1) 網站和頁面權重

(2) 頁面更新度

(3) 導入連結

(4) 與首頁點擊距離

4.位址庫

搜尋引擎會建立一個位址庫,這麼做可以很好的避免出現過多抓取或者反復抓取的現象,記錄已經被發現還沒有抓取的頁面,以及已經被抓取的頁面。

位址庫中的URL有以下幾個來源:

(1) 人工錄入的種子網站。

(2) 蜘蛛抓取頁面後,從HTML中解析出新的連結URL,與位址庫中的資料進行對比,如果是位址庫中沒有的網址,就存入待訪問位址庫。

(3) 搜尋引擎自帶的一種表格提供站長,方便站長提交網址

講到這裡,關於搜尋引擎已經差不多了,雖然對於真正的搜尋引擎技術來說只是一皮毛,不過對於SEO人員已經夠用了。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.