比較全的robots.txt介紹

來源:互聯網
上載者:User

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

前段時間筆者手上一個網站因為robots.txt檔失誤被寫錯了幾個字元,導致網站遲遲不被收錄。 當時感覺很不對勁,檢查來檢查去也沒有檢查出什麼問題,後來登錄Google網站管理員中心診斷網站才看到robots檔組織任何搜尋引擎蜘蛛訪問才發現問題,改過之後,收錄正常。

robots.txt檔的寫法你知道多少呢?對比一下下面的例子:

1、禁止所有搜尋引擎訪問網站的任何部分,也就是是禁止任何搜尋引擎收錄你的網站。

User-agent: *

Disallow: /

2、允許所有的搜尋引擎訪問你的網站的任何部分,這是通常的用法。

User-agent: *

Disallow:

或者

User-agent: *

Allow: /

3、僅禁止某一搜尋引擎訪問你的網站。 百度是baiduspider Google是googlebot

User-agent: baiduspider

Disallow: /

或者

User-agent: googlebot

Disallow: /

4、僅僅允許某一搜尋引擎訪問你的網站。 同樣百度是baiduspider Google是googlebot

User-agent: baiduspider

Disallow:

或者

User-agent: googlebot

Disallow:

5、如果你網站的某個目錄不希望被搜尋引擎收錄,寫法如下:

User-agent: *

Disallow: /目錄名稱1/

Disallow: /目錄名稱2/

Disallow: /目錄名稱3/

注意:不能寫成Disallow: /目錄名稱1/ /目錄名稱2/ 這樣的形式,每個目錄要單獨另起一行特別說明。

6、禁止搜尋引擎訪問網站中所有的動態頁面(動態頁面就是URL中任何帶有「?」 的頁面)

User-agent: *

Disallow: /*?*

7、僅僅允許搜尋引擎訪問某一特定檔尾碼形式的網頁。

User-agent: *

Allow: .尾碼形式(如.html、.htm、.php等等)$

Disallow: /

8、限制搜尋引擎訪問某一特定檔尾碼形式的網頁。

User-agent: *

Disallow: /*.尾碼形式(如.html、.htm、.php等等)

9、允許搜尋引擎訪問特定目錄中的網頁

User-agent: *

Allow: /目錄1/目錄2(允許訪問目錄2中的網頁)

Allow: /目錄3/目錄4(允許訪問目錄4中的網頁)

Allow: /目錄5/目錄6(允許訪問目錄6中的網頁)

Disallow: /目錄1/

Disallow: /目錄3/

Disallow: /目錄5/

10、阻止搜尋引擎訪問網站中特定某一檔案格式的檔(注意不是網頁)

User-agent: *

Disallow: /*. (檔案格式:如gif、jpg等等)$

以上是一些常用的格式。 具體的寫法還要以各個網站需求而定。 寫robots.txt還要注意以下一些問題:

1、robots.txt檔是以純文字格式保存的txt檔。

2、robots.txt必須防止在網站的根目錄中。 最上層的robots.txt檔必須這樣被訪問:如HTTP://www.wanseo.com/robots.txt

3、書寫robots.txt時要嚴格按照以上大小寫形式書寫

4、通常你的網站如果比較簡單,那麼以上的格式足夠你使用的了。 如果比較複雜,需要訪問這裡而又不需要訪問那裡,禁止這個檔又要允許那個檔,允許訪問訪問帶有「?」 符號的特定網頁等等,那麼你需要結合以上格式仔細研究合適于你網站的robots.txt檔寫法。

5、robots.txt通常在某個分目錄中還可以存在,但是如果與頂級目錄中的robots.txt有衝突,則以頂級目錄中robots.txt命令為准。

6、僅當您的網站包含不希望被搜尋引擎收錄的內容時,才需要使用robots.txt檔。 如果您希望搜尋引擎收錄網站上所有內容,請勿建立robots.txt檔或者創建一個內容為空的robots.txt檔。 這一點通常被人們忽略,實際上建立空的robots.txt檔對搜尋引擎非常不友好。

7、如果你不想自己動手寫robots.txt檔,那麼請Google幫你寫。 登錄Google網站管理平臺,有生成robots.txt檔的功能。

8、User-agent: *

Disallow: /

這種格式不僅僅是禁止抓取頁面,更重要的是如果你的網站被收錄了,然後又把robots.txt檔修改成以上格式,那麼你的網站將在搜尋引擎中被刪除,整個地刪除。

9、元標記對於一般的網站來說可有可無,不過你還是得了解:

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">(允許抓取該頁面,允許跟著該頁面上的連結繼續抓取)
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">(不允許抓取該頁面,允許跟著該頁面上的連結繼續抓取)
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">(允許抓取該頁面,不允許跟著該頁面上的連結繼續抓取)
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">(不允許抓取該頁面,不允許跟著該頁面上的連結繼續抓取)

10、需要刪除一些被搜尋引擎收錄的特定網頁,參考HTTP://www.google.com/support/webmasters/bin/answer.py?answer=35301

貌似目前只有Google這麼做。

本文來自安徽SEO(www.wanseo.com)。 原文HTTP://www.wanseo.com/node/47 轉載請保留出處及原文位址。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.