根據網站的訪問日誌看搜尋引擎蜘蛛的到來

來源:互聯網
上載者:User
關鍵字 搜尋引擎 SEO

仲介交易 SEO診斷 淘寶客 雲主機 技術大廳

搜尋引擎可以給網站帶來可觀的來路,所以搜尋引擎對一個網站的收錄相當重要,這不用再多說。 但我們一般不太清楚搜尋引擎蜘蛛何時第一次來到咱們的網站,也不太清楚第一次來過之後,蜘蛛隨後再來的頻率等等。

從搜尋引擎前端,可以通過快照(cache)看到搜尋引擎對網站的某一個網頁的收錄時間,但這對於搜尋引擎對全站的抓取情況不能很好地統計瞭解。 沒轍了 嗎?當然也不是,通過網站詳細的訪問日誌,可以觀察出一些端倪來。 以Apache伺服器的Access Log訪問日誌為例:

65.55.106.108 - - [21/Nov/2009:15:01:10 +0800] "GET /robots.txt HTTP/1.1" 200 150 ---日誌1

65.55.106.108 - - [21/Nov/2009:15:02:09 +0800] "GET / HTTP/1.1" 200 4888 ---日誌2

目前市面上幾乎所有的搜尋引擎都遵循一個遊戲規則,那就是它們都會根據網站根目錄下設定的robots.txt來決定抓取哪些網頁、不抓取哪些網頁。 那麼 我們就可以在訪問日誌檔裡面搜索「robots.txt」來大致確定搜尋引擎到來的時間。 為什麼說大致呢,因為同一個搜尋引擎可能會多次讀取 robots這個檔,那當然就是根據時間最早的一個日誌記錄看成該搜尋引擎第一次到來的時間。 從上面「日誌1」可以看出,某搜尋引擎在11月21號對庫 吧網進行了 第一次抓取。 把IP位址65.55.106.108輸入到IP138或其他查詢IP的系統裡面可以看出,該IP位址對 應的是「美國 Microsoft公司」,那麼我們可以看成微軟的bing搜尋引擎的蜘蛛的第一次到來。 搜尋引擎根據robots.txt的設定,知道了哪些允許抓取, 哪些不希望被抓取,那它就在這個網站上開工了,「日誌2」顯示的是bing首先抓取了該網址的主頁(斜杠/意為主頁)。

203.208.60.197 - - [17/Nov/2009:13:28:04 +0800] "GET /icof/102104/102104124/4b2b6b30242458d2012424d38cd77283.html HTTP/1.1" 200 5813--日誌3

203.208.60.194 - - [13/Nov/2009:09:02:46 +0800] "GET /login/ HTTP/1.1" 200 8191 --日誌4

66.249.67.50 - - [13/Nov/2009:22:44:12 +0800] "GET /icof/102104/102104112/4b2b6b30242458d2012424c8733a67f6.html HTTP/ 1.1" 200 5731 --日誌5

把IP 203.208.60.194和203.208.60.197輸入到IP138等查詢系統可以看出,這兩個IP對應的都是「谷歌(中國)公司」。 從這裡我 們可以看出,谷歌(中國)把編目程式放在多台伺服器上,有一個IP段都屬於google中國的搜尋引擎。 另外有意思的是,「日誌5」所對應的IP是 66.249.67.50,查詢其歸屬,是「美國 加利福尼亞州山景市谷歌公司」。 從「日誌4」和「日誌5」看出,在11月13號,谷歌中國和美國的蜘蛛同時來到了該網站進行抓取。 大公司的搜尋引擎蜘蛛都 應該是這樣吧,協同工作。

202.160.178.146 - - [17/Nov/2009:13:29:44 +0800] "GET /catalogOfYongle/402881872323df84012323e0f0be00ab.html HTTP/1.0 " 200 45002 --日誌6

把「日誌6」裡面對應的IP位址202.160.178.146 拿去查詢,查詢系統直接就很精確地告訴你結果為「雅虎中國 yahoo中國蜘蛛」,說明雅虎中國搜尋引擎的蜘蛛也對該網站進行了抓取。

總的來說,網站的訪問日誌記錄了搜尋引擎到來抓取的詳細資訊。 多觀察日誌檔、多熟悉每個搜尋引擎所在的IP範圍,就可以大致對各家搜尋引擎對你的網站的 收錄有一個瞭解。 最重要的是,內容為王,搜尋引擎喜歡原創內容較多、更新較快的網站,多進行遠端內容的發佈吧,搜尋引擎蜘蛛會經常光顧你網站的,只怕到時 候塞爆你的日誌檔 :-)

本文由庫吧網站長田東山首發于庫吧網,版權所有: HTTP://html.libzone.cn/blog/2009/11/21/125879090551788.html

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.