比較全的robots.txt介紹

最後更新：2014-12-22 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷淘寶客雲主機技術大廳

前段時間筆者手上一個網站因為robots.txt檔失誤被寫錯了幾個字元，導致網站遲遲不被收錄。當時感覺很不對勁，檢查來檢查去也沒有檢查出什麼問題，後來登錄Google網站管理員中心診斷網站才看到robots檔組織任何搜尋引擎蜘蛛訪問才發現問題，改過之後，收錄正常。

robots.txt檔的寫法你知道多少呢?對比一下下面的例子：

1、禁止所有搜尋引擎訪問網站的任何部分，也就是是禁止任何搜尋引擎收錄你的網站。

User-agent: *

Disallow: /

2、允許所有的搜尋引擎訪問你的網站的任何部分，這是通常的用法。

User-agent: *

Disallow:

或者

User-agent: *

Allow: /

3、僅禁止某一搜尋引擎訪問你的網站。百度是baiduspider Google是googlebot

User-agent: baiduspider

Disallow: /

或者

User-agent: googlebot

Disallow: /

4、僅僅允許某一搜尋引擎訪問你的網站。同樣百度是baiduspider Google是googlebot

User-agent: baiduspider

Disallow:

或者

User-agent: googlebot

Disallow:

5、如果你網站的某個目錄不希望被搜尋引擎收錄，寫法如下：

User-agent: *

Disallow: /目錄名稱1/

Disallow: /目錄名稱2/

Disallow: /目錄名稱3/

注意：不能寫成Disallow: /目錄名稱1/ /目錄名稱2/ 這樣的形式，每個目錄要單獨另起一行特別說明。

6、禁止搜尋引擎訪問網站中所有的動態頁面(動態頁面就是URL中任何帶有「?」的頁面)

User-agent: *

Disallow: /*?*

7、僅僅允許搜尋引擎訪問某一特定檔尾碼形式的網頁。

User-agent: *

Allow: .尾碼形式(如.html、.htm、.php等等)$

Disallow: /

8、限制搜尋引擎訪問某一特定檔尾碼形式的網頁。

User-agent: *

Disallow: /*.尾碼形式(如.html、.htm、.php等等)

9、允許搜尋引擎訪問特定目錄中的網頁

User-agent: *

Allow: /目錄1/目錄2(允許訪問目錄2中的網頁)

Allow: /目錄3/目錄4(允許訪問目錄4中的網頁)

Allow: /目錄5/目錄6(允許訪問目錄6中的網頁)

Disallow: /目錄1/

Disallow: /目錄3/

Disallow: /目錄5/

10、阻止搜尋引擎訪問網站中特定某一檔案格式的檔(注意不是網頁)

User-agent: *

Disallow: /*. (檔案格式：如gif、jpg等等)$

以上是一些常用的格式。具體的寫法還要以各個網站需求而定。寫robots.txt還要注意以下一些問題：

1、robots.txt檔是以純文字格式保存的txt檔。

2、robots.txt必須防止在網站的根目錄中。最上層的robots.txt檔必須這樣被訪問：如HTTP://www.wanseo.com/robots.txt

3、書寫robots.txt時要嚴格按照以上大小寫形式書寫

4、通常你的網站如果比較簡單，那麼以上的格式足夠你使用的了。如果比較複雜，需要訪問這裡而又不需要訪問那裡，禁止這個檔又要允許那個檔，允許訪問訪問帶有「?」符號的特定網頁等等，那麼你需要結合以上格式仔細研究合適于你網站的robots.txt檔寫法。

5、robots.txt通常在某個分目錄中還可以存在，但是如果與頂級目錄中的robots.txt有衝突，則以頂級目錄中robots.txt命令為准。

6、僅當您的網站包含不希望被搜尋引擎收錄的內容時，才需要使用robots.txt檔。如果您希望搜尋引擎收錄網站上所有內容，請勿建立robots.txt檔或者創建一個內容為空的robots.txt檔。這一點通常被人們忽略，實際上建立空的robots.txt檔對搜尋引擎非常不友好。

7、如果你不想自己動手寫robots.txt檔，那麼請Google幫你寫。登錄Google網站管理平臺，有生成robots.txt檔的功能。

8、User-agent: *

Disallow: /

這種格式不僅僅是禁止抓取頁面，更重要的是如果你的網站被收錄了，然後又把robots.txt檔修改成以上格式，那麼你的網站將在搜尋引擎中被刪除，整個地刪除。

9、元標記對於一般的網站來說可有可無，不過你還是得了解：

＜META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"＞（允許抓取該頁面，允許跟著該頁面上的連結繼續抓取）
＜META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW"＞（不允許抓取該頁面，允許跟著該頁面上的連結繼續抓取）
＜META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW"＞（允許抓取該頁面，不允許跟著該頁面上的連結繼續抓取）
＜META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"＞（不允許抓取該頁面，不允許跟著該頁面上的連結繼續抓取）

10、需要刪除一些被搜尋引擎收錄的特定網頁，參考HTTP://www.google.com/support/webmasters/bin/answer.py?answer=35301

貌似目前只有Google這麼做。

本文來自安徽SEO(www.wanseo.com)。原文HTTP://www.wanseo.com/node/47 轉載請保留出處及原文位址。

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

比較全的robots.txt介紹

聯繫我們

熱門文章

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support

比較全的robots.txt介紹

聯繫我們

熱門文章

推薦話題

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support