真實經歷分享:通過.htaccess檔案檢測不良蜘蛛

來源:互聯網
上載者:User

仲介交易 SEO診斷 淘寶客 雲主機 技術大廳

一周前,筆者分享過一篇文章《SEO診斷:透過Log日誌找到網站死結》,並在最後附上了兩條改善建議。 由於客觀條件所限,最後採用robots遮罩的方法。 先一起來看看一周後的蜘蛛變化,三大主流蜘蛛總抓取量銳減,證明robots檔開始生效。 從圖上的訪問次數、總停留時間和總抓取量看,有所進步但路還很遠。

  

然而,從11號開始,網站LOG日誌開始出現眾多中文非主流蜘蛛訪問,其中不乏知名俄羅斯搜尋引擎蜘蛛Yandexbot,還有不明「飛行物」AhrefsBot & ezooms.bot。 按照思維中定型的遮罩蜘蛛方法,本能地將以上所有蜘蛛(對中文網站seo而言,以上的蜘蛛就是垃圾蜘蛛)通過Robots.txt檔disallow掉。 本以為這樣就算搞定了,但是今早打開最近3天的LOG日誌一看,垃圾蜘蛛抓取更加頻繁,兇猛,尤其以ezooms.bot為甚。

一般來說,搜尋引擎對待Robots.txt檔有個生效期,大概2-7天。 但是ezooms.bot的迅猛發展,讓我不得不懷疑他是個Robots協定違反者。

今天要分享的就是如何通過.htaccess檔案檢測不良蜘蛛。

以下是14號的網站日誌,導入到Excel進行篩選分析,發現在當天所有訪問日誌(包括真實使用者和蜘蛛)中,竟然有多達342次訪問記錄。 而尤以AhrefsBot & ezooms.bot居多。

(注:此例輸入「Bot」進行篩選;國外蜘蛛一般叫Bot,國內一般叫Spider)

  

Ezooms.bot究竟是何方神聖?於是通過百度去搜索相關的記錄,但是很不理想,百度沒有任何相關的記錄。 沒辦法,只能求助於谷歌,滿篇幅都是英文,頭大了,咬咬牙慢慢咀嚼吧。

翻閱了七八篇國外有關ezooms.bot的博客文章,對該bot也沒有一個明確的說法,有的認為是SEOMoz Bot,有的認為是個文章採集者,但是大家對它的評價都很不好,被描繪成諸如吸血鬼、水蛭等。 截取一段外文評語:

  

從瞭解到的知識來看,ezooms.bot對爬行的網站沒有任何的説明,遂下定決心遮罩之。 由於ezooms.bot不遵守Robots.txt協定,又想起了通過htaccess檔案檢測IP段的方法。 國外的博文也多次提到此方法,

  

圖上的IP段與網站記錄的ezooms.bot爬行ip段基本吻合,應該是個方法。 但是遮罩整個ip段,可能會造成一定的誤殺(畢竟並不能確認所有的ip都是ezooms.bot)。 有沒有更穩妥的辦法呢?還是翻閱資料,最後找到了通過.htaccess來解決的辦法。 規則如下:

RewriteEngine on

RewriteCond %{HTTP_USER_AGENT} ^Ezooms

RewriteCond %{HTTP_USER_AGENT} ^Ezooms/1.0

RewriteRule ^(.*)$ HTTP://getlostbadbot/

為什麼這麼寫,網上翻翻更多關於Apache中 RewriteCond 規則參數介紹,我也是菜鳥正在學習中。

以上是筆者個人關於如何遮罩不良蜘蛛的真實經歷,希望對大家有所説明。 SEO就是在不斷的學習中進步的。 本文由減肥產品排行榜www.shou68.net原創供稿,歡迎大家轉載,轉載時請保留此連結,謝謝合作!

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.