仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
前段時間筆者手上一個網站因為robots.txt檔失誤被寫錯了幾個字元,導致網站遲遲不被收錄。 當時感覺很不對勁,檢查來檢查去也沒有檢查出什麼問題,後來登錄Google網站管理員中心診斷網站才看到robots檔組織任何搜尋引擎蜘蛛訪問才發現問題,改過之後,收錄正常。
robots.txt檔的寫法你知道多少呢?對比一下下面的例子:
1、禁止所有搜尋引擎訪問網站的任何部分,也就是是禁止任何搜尋引擎收錄你的網站。
User-agent: *
Disallow: /
2、允許所有的搜尋引擎訪問你的網站的任何部分,這是通常的用法。
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
3、僅禁止某一搜尋引擎訪問你的網站。 百度是baiduspider Google是googlebot
User-agent: baiduspider
Disallow: /
或者
User-agent: googlebot
Disallow: /
4、僅僅允許某一搜尋引擎訪問你的網站。 同樣百度是baiduspider Google是googlebot
User-agent: baiduspider
Disallow:
或者
User-agent: googlebot
Disallow:
5、如果你網站的某個目錄不希望被搜尋引擎收錄,寫法如下:
User-agent: *
Disallow: /目錄名稱1/
Disallow: /目錄名稱2/
Disallow: /目錄名稱3/
注意:不能寫成Disallow: /目錄名稱1/ /目錄名稱2/ 這樣的形式,每個目錄要單獨另起一行特別說明。
6、禁止搜尋引擎訪問網站中所有的動態頁面(動態頁面就是URL中任何帶有「?」 的頁面)
User-agent: *
Disallow: /*?*
7、僅僅允許搜尋引擎訪問某一特定檔尾碼形式的網頁。
User-agent: *
Allow: .尾碼形式(如.html、.htm、.php等等)$
Disallow: /
8、限制搜尋引擎訪問某一特定檔尾碼形式的網頁。
User-agent: *
Disallow: /*.尾碼形式(如.html、.htm、.php等等)
9、允許搜尋引擎訪問特定目錄中的網頁
User-agent: *
Allow: /目錄1/目錄2(允許訪問目錄2中的網頁)
Allow: /目錄3/目錄4(允許訪問目錄4中的網頁)
Allow: /目錄5/目錄6(允許訪問目錄6中的網頁)
Disallow: /目錄1/
Disallow: /目錄3/
Disallow: /目錄5/
10、阻止搜尋引擎訪問網站中特定某一檔案格式的檔(注意不是網頁)
User-agent: *
Disallow: /*. (檔案格式:如gif、jpg等等)$
以上是一些常用的格式。 具體的寫法還要以各個網站需求而定。 寫robots.txt還要注意以下一些問題:
1、robots.txt檔是以純文字格式保存的txt檔。
2、robots.txt必須防止在網站的根目錄中。 最上層的robots.txt檔必須這樣被訪問:如HTTP://www.wanseo.com/robots.txt
3、書寫robots.txt時要嚴格按照以上大小寫形式書寫
4、通常你的網站如果比較簡單,那麼以上的格式足夠你使用的了。 如果比較複雜,需要訪問這裡而又不需要訪問那裡,禁止這個檔又要允許那個檔,允許訪問訪問帶有「?」 符號的特定網頁等等,那麼你需要結合以上格式仔細研究合適于你網站的robots.txt檔寫法。
5、robots.txt通常在某個分目錄中還可以存在,但是如果與頂級目錄中的robots.txt有衝突,則以頂級目錄中robots.txt命令為准。
6、僅當您的網站包含不希望被搜尋引擎收錄的內容時,才需要使用robots.txt檔。 如果您希望搜尋引擎收錄網站上所有內容,請勿建立robots.txt檔或者創建一個內容為空的robots.txt檔。 這一點通常被人們忽略,實際上建立空的robots.txt檔對搜尋引擎非常不友好。
7、如果你不想自己動手寫robots.txt檔,那麼請Google幫你寫。 登錄Google網站管理平臺,有生成robots.txt檔的功能。
8、User-agent: *
Disallow: /
這種格式不僅僅是禁止抓取頁面,更重要的是如果你的網站被收錄了,然後又把robots.txt檔修改成以上格式,那麼你的網站將在搜尋引擎中被刪除,整個地刪除。
9、元標記對於一般的網站來說可有可無,不過你還是得了解:
<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">(允許抓取該頁面,允許跟著該頁面上的連結繼續抓取)
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">(不允許抓取該頁面,允許跟著該頁面上的連結繼續抓取)
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">(允許抓取該頁面,不允許跟著該頁面上的連結繼續抓取)
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">(不允許抓取該頁面,不允許跟著該頁面上的連結繼續抓取)
10、需要刪除一些被搜尋引擎收錄的特定網頁,參考HTTP://www.google.com/support/webmasters/bin/answer.py?answer=35301
貌似目前只有Google這麼做。
本文來自安徽SEO(www.wanseo.com)。 原文HTTP://www.wanseo.com/node/47 轉載請保留出處及原文位址。