知己知彼之搜尋引擎索引過程

來源:互聯網
上載者:User

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

這是天刃在「網站推廣&SEO」群裡針對一些站長對蜘蛛多次檢索自己的網站卻一直不收錄,以及自己網站日誌中發現有多個蜘蛛爬自己的站的問題,做的一些詳細解答。 經天刃同意我把其中的內容整理後發佈,呵呵,應該也算原創啊!

搜尋引擎的蜘蛛抓取頁面的一般過程是這樣的。

首先,收集待索引網頁的url。

搜尋引擎的蜘蛛一般分為兩類,這第一類的主要工作就是收集網頁的中有效的URL。 它們的任務是一刻不停地掃描Internet資源,以隨時更新其搜尋引擎龐大的url清單以供它的第二類蜘蛛使用。 也就是說,當這一類蜘蛛訪問我們網頁的時候,並不在於索引我們的網頁,而是在尋找網頁中的所有有效連結。

關於有的站長在自己的訪問日誌中發現多個蜘蛛IP爬自己站的情況。

我們常用的搜尋引擎每天要處理數以億計的資訊,沒有一個大型的搜尋引擎公司(GOOGLE或百度之類)不配備上萬台伺服器來共同執行這個工作,因此搜尋引擎都擁有不同的資料中心,也就是說有多個robots來檢索你的站是很正常的事情。 不過這也僅限於第一類蜘蛛,在索引頁面的時候,搜尋引擎會限制某個特定的資料中心來讓專門索引頁面的蜘蛛檢索你的站。 因此朋友們從伺服器訪問日誌中時常可以看到源自不同IP的蜘蛛,在很短的時間內頻繁訪問網站。 不過千萬不要高興得太早,也許其根本不是在索引你的網頁而只是在掃描url。

順便貼幾個百度幾個常用的蜘蛛IP

15 220.181.19.

16 159.226.50

17 202.108.11

18 202.108.22

19 202.108.23

20 202.108.249

21 202.108.250

22 61.135.145

23 61.135.146

補充一下,第一類蜘蛛索引時記錄的資訊主要包括網頁的url、最終修改時間等。

原yesky編輯問: 我認為蜘蛛爬取後,不能立即在搜索中體現,是cache與內容篩選工作的緣故。 不同的站有不同的權重,這個時間也會不一樣。 最典型的是yesky的站,權重高,yesky首頁上的連結,早上新增,下午就可以在百度中搜索清單中體現出來。

當然不可能內容抓取後便立即體現,就像你前幾天說的,在頁面索引後有一個釋放的過程。

問:還有個現象就是,很多小站,見蜘蛛爬了新頁面,短期在搜索清單中是搜索不到的。 但是在搜尋引擎的cache伺服器中,卻可以搜索到。

對於一些小站的網頁而言,只要第二類蜘蛛開始索引網頁了,即使整個收錄過程還沒有完成,相應的網頁便有了出現在搜尋引擎索引庫中的可能,比如我們在查詢我們網站收錄情況的時候, 常常看到標注為補充結果只顯示網頁的url或有的只顯示網頁標題與url但沒有描述的頁面,這就是處於這一階段網頁的正常結果。 當搜尋引擎真正讀取、分析、緩存了這個頁面後,它便可以從補充結果的緩存出來顯示正常的資訊了。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.