robots能否徹底遮罩搜索蜘蛛爬行與抓取呢?

來源:互聯網
上載者:User

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

說到遮罩搜索蜘蛛的抓取,自然而然的就會想到robots.txt文檔。 robots.txt是什麼?其實在此前惠州SEO葉劍輝也已經對此進行了基礎的說明。 robots.txt是一種存放在網站空間根目錄下的文字檔,是一種協定,用來告訴搜索蜘蛛網站中哪些可被爬行抓取,哪些不可被爬行抓取。 然而,在這裡,葉劍輝有著這麼一個疑問,robots.txt是否能徹底遮罩蜘蛛的爬行抓取呢?

robots.txt能遮罩蜘蛛的爬行抓取

近日,好友襄陽SEO茶妹遇到了這麼一個問題:「我明明用robots.txt遮罩了wordpress中的目錄檔呀,為什麼蜘蛛每日仍然照常爬行呢?」 而後,葉劍輝自然便查網站robots.txt文檔,以下便是對wordpress目錄遮罩設置:

Disallow: /wp-admin

Disallow: /wp-content

Disallow: /wp-includes

在查看過後,發現了這麼一個問題,這是目錄檔案檢測,然而,這遮罩設置後邊卻似乎缺少了/,而葉劍輝進行諮詢時,好友卻是這麼認為:「目錄檔前邊加上了/就可以了,後邊加不加都一樣的呀」。 對此,葉劍輝卻是另一種看法,在後邊加上與未加上/,對於蜘蛛而言是兩種概念,加上了是告訴蜘蛛,這是一個資料夾,而未加上即告訴蜘蛛這是一個檔,也因此導致明明在robots.txt上做好了設置,卻沒能有效的遮罩。 當然這僅僅是葉劍輝的個人看法。

繼而,好友聽從建議將robots.txt修改為:

Disallow: /wp-admin/

Disallow: /wp-content/

Disallow: /wp-includes/

成功修改後便在百度站長平臺進行提交重新生成操作(需要注意的是,若不主動提交生成,靠蜘蛛自行生產的話,耗時較長的喔),在當天也就生效了。 隔日後再對日誌進行查看,發現蜘蛛對這三個wordpress下的目錄真的不再爬行抓取了。

從這麼一點上看,在我們進行網站SEO優化之時,著實不能忽略任何細節,僅僅一個/,可帶來的卻是不一樣的效果。

robots.txt不能徹底遮罩蜘蛛的爬行抓取

而在這一問題解決後,好友在這檔案檢測上卻又有了另一問題:「明明把某個目錄遮罩了呀,為什麼蜘蛛還是能夠抓取收錄該目錄下的某個檔呢?」

那麼,在這裡葉劍輝就需要做一個說明,robots.txt協定並非是一個標準,一個規範,只是約定俗成而已罷了,通常搜尋引擎會識別這個檔,但也有一些特殊情況。 (如之前的360事件就不作為此次討論內容)

無論是百度亦或是谷歌,某個頁面只要有其他網站連結到該頁面的話,同樣有可能會被索引和收錄。 要想徹底遮罩分頁檔被谷歌索引的話(即使有其他網站連結到該分頁檔),則需要在頁面head中插入noindex元標記或x-robots-tag。 如下:

<meta name="googlebot" content="noindex">

當谷歌蜘蛛看到頁面上著noindex的元標記,就會將此頁從谷歌搜尋結果中完全丟棄,無視是否還有其他頁連結到此頁。

而百度呢? 對於百度而言,並不支援如谷歌那般通過noindex完全將網頁從索引上刪除,僅支援noarchive元標記來禁止百度顯示網頁快照。 具體語句如下:

<meta name="Baiduspider" content="noarchive">

上面這個標記只是禁止百度顯示該頁面快照,但百度仍會為其建索引,並在搜尋結果中顯示網頁摘要。

眾所周知,淘寶網通過robots.txt全站遮罩百度蜘蛛,可為什麼我們在百度搜索淘寶網時第一個結果也是淘寶網首頁位址呢?而在我們查看該頁面快照時卻是顯示空白?因此看來,網站只能禁止百度快照的顯示, 卻無法做到禁止百度為網頁建索引。

  

結束語:

回到葉劍輝在文章首段所說到的疑問,robots.txt是否能徹底遮罩蜘蛛的爬行抓取呢?相信在看到這麼一個問題,會有這麼一部分朋友的回答是肯定的。 而這只能說,我們都缺少了善於去發現的心,而對於沒能有效遮罩蜘蛛抓取,只能說明咱們的優化工作做得不夠精細。

由這麼兩個robots.txt的小問題上,葉劍輝認為,阻止我們進階為SEO高手的或許便是那善於發現問題的心和精細化的執行力。

原文出自惠州SEO博客 HTTP://www.huizhouseo.cn/seo/823.html 葉劍輝原創供稿。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.