robots檔是什麼?
搜尋引擎通過一種程式robot(又稱spider),自動訪問互聯網上的網頁並獲取網頁資訊。
您可以在您的網站中創建一個純文字檔robots.txt,在這個檔中聲明該網站中不想被robot訪問的部分,這樣,該網站的部分或全部內容就可以不被搜尋引擎收錄了,或者指定搜尋引擎只收錄指定的內容。
robots.txt檔放在哪裡?
robots.txt檔應該放在網站根目錄下。 舉例來說,當robots訪問一個網站(比如HTTP://www.ithov.com)時,首先會檢查該網站中是否存在HTTP://www.ithov.com/ robots.txt這個檔,如果機器人找到這個檔,它就會根據這個檔的內容,來確定它存取權限的範圍。
robots.txt檔的格式?
"robots.txt"檔包含一條或更多的記錄,這些記錄通過空行分開(以CR,CR/NL, or NL作為結束符),每一條記錄的格式如下所示:
"<field>:<optionalspace><value><optionalspace>"。
在該檔中可以使用#進行注解,具體使用方法和UNIX中的慣例一樣。 該檔中的記錄通常以一行或多行User-agent開始,後面加上若干Disallow行,詳細情況如下:
User-agent:
該項的值用於描述搜尋引擎robot的名字,在"robots.txt"檔中,如果有多條User-agent記錄說明有多個robot會受到該協定的限制,對該檔來說,至少要有一條User-agent記錄。 如果該項的值設為*,則該協定對任何機器人均有效,在"robots.txt"檔中,"User-agent:*"這樣的記錄只能有一條。
Disallow:
該項的值用於描述不希望被訪問到的一個URL,這個URL可以是一條完整的路徑,也可以是部分的,任何以Disallow開頭的URL均不會被robot訪問到。 例如"Disallow:/help"對/help.html 和/help/index.html都不允許搜尋引擎訪問,而"Disallow:/help/"則允許robot訪問/help.html,而不能訪問/help/ index.html。 任何一條Disallow記錄為空,說明該網站的所有部分都允許被訪問,在"/robots.txt"檔中,至少要有一條Disallow記錄。 如果"/robots.txt"是一個空檔,則對於所有的搜尋引擎robot,該網站都是開放的。
robots.txt語法教程
用幾個最常見的情況,直接舉例說明:
1. 允許所有SE收錄本站:robots.txt為空就可以,什麼都不要寫。
2. 禁止所有SE收錄網站的某些目錄:
User-agent: *
Disallow: /目錄名1/
Disallow: /目錄名2/
Disallow: /目錄名3/
3. 禁止某個SE收錄本站,例如禁止百度:
User-agent: Baiduspider
Disallow: /
4. 禁止所有SE收錄本站:
User-agent: *
Disallow: /
5. 加入sitemap.xml路徑,例如:
Sitemap: HTTP://www.ithov.com/sitemap.xml
參考資料:常見搜尋引擎機器人Robots名字
名稱 搜尋引擎
Baiduspider HTTP://www.baidu.com
Googlebot HTTP://www.google.com
MSNBOT HTTP://search.msn.com
ia_archiver HTTP://www.alexa.com
一個線上寫robots.txt的工具。
HTTP://www.clickability.co.uk/robotstxt.html
最後需要注意,robots.txt檔案名必須是小寫,而且放在網站根目錄,比如:HTTP://www.ithov.com/robots.txt
根據網站目錄結構不同,也存在一些差異,以下robots.txt檔供大家參考使用:
嚴重鄙視轉載檔,去掉版權資訊者! 之前發表的一篇文章被一些網站改得面目全非,版權什麼的都沒有留下!
# robots.txt file start
# Exclude Files From All Robots:
User-agent: *
Disallow: /Article/
Disallow: /Master/
Disallow: /ebook/
Disallow: /code/
Disallow: /Soft/
Disallow: /video/
Disallow: /mov/
Disallow: /User/
Disallow: /Admin/
Sitemap: HTTP://www.ithov.com/sitemap_index.xml
# End robots.txt file
至於為何在根目錄這樣寫Disallow: /Article/的方式,大家可以細心的觀察一下我網站的訪問結構,就能體會其中的原因啦! 當然還是要多細心觀察搜尋引擎的收錄情況,為自己的網站配置一個正確的robots.txt才是關鍵。
作者:劍樹 來源:IT坊資訊網 HTTP://www.ithov.com 版權所有歡迎各媒體互相轉截,請注明作者及出處!