首先,我來介紹一下什麼是robots.txt:robots.txt是搜尋引擎中訪問網站的時候要查 看的第一個檔。 Robots.txt檔告訴編目程式在伺服器上什麼檔是可以被查看的。 當一個搜索蜘蛛訪問一個網站時,它會首先檢查該網站根目錄下是 否存在robots.txt,如果存在,搜索機器人就會按照該檔中的內容來確定訪問的範圍;如果該檔不存在,所有的搜索蜘蛛將能夠訪問網站上所有沒有 被口令保護的頁面。 最後,robots.txt必須放置在一個網站的根目錄下。
大家可以參考一下谷歌、百度和騰訊的robots寫法:
HTTP://www.google.com/robots.txt
HTTP://www.baidu.com/robots.txt
HTTP://www.qq.com/robots.txt
大家瞭解完robots.txt後,那麼我們可以用robots.txt來做什麼?
1、用robots.txt遮罩相似度高的頁面或沒內容的頁面。
我們知道,搜尋引擎收錄網頁後,會對網頁進行「審核」,而當兩個網頁的相似度很高時,那麼搜尋引擎就會刪除掉其中一個,並且會降低一點你網站的得分。
假設以下這兩個連結,內容其實差不多,那麼第一個連結就應該遮罩掉。
/XXX?123
/123.html
像第一個的連結這樣的連結非常多,那麼我們要怎麼遮罩呢?其實只要遮罩/XXX?就可以遮罩所有的連結了。
代碼如下:
Disallow: /XXX?
同理,一些沒有內容的頁面我們也可以利用相同的辦法將其遮罩掉。
2、用robots.txt遮罩多餘的連結,一般保留靜態的連結(既HTML、htm、shtml等)。
由於網站中經常會出現多個連結指向同一個頁面的情況,而這樣會讓搜尋引擎對網站的友好度降低。 為了避免這一個情況,我們就可以通過robots.txt把 非主要的連結去掉。
比如以下兩個連結指向同樣的頁面:
/OOO?123
/123.html
那麼我們就應該去掉第一個垃圾,代碼如下:
Disallow: /OOO?123
3、用robots.txt遮罩死鏈
死鏈就是曾經存在的網頁,因為改版或其他原因而失去效用後就變成死鏈,也就是說看似一個正常的網頁連結,但點擊後不能打開相對應的網頁頁面。
比如,原來在目錄為/seo下的所有連結,因為目錄位址的改變,現在都變成死連結了,那麼我們可以用robots.txt把他遮罩掉,代碼如下:
Disallow: /seo/
4、告訴搜尋引擎你的sitemap.xml位址
利用robots.txt可以告訴搜尋引擎你sitemap.xml檔的位址,而不需要在網站上添加sitemap.xml的連結。 具體代碼如下:
Sitemap: 你的sitemap位址
以上就是robots.txt的基本用法,一個好的網站必定會有一個好的robots.txt,因為robots.txt是搜尋引擎瞭解你網站的一 個途徑。 另外在這裡我推薦一下一個比較適合wordpress使用者使用的robots.txt寫法:
User-agent: *
Disallow: /wp-
Disallow: /feed/
Disallow: /comments/feed
Disallow: /trackback/
Sitemap: HTTP://rainjer.com/sitemap.xml
最後,如果你覺得上面所說的還不能滿足你的需要,那麼你可以在谷歌或百度官方提供的robots.txt使用指南學習:
百度:HTTP://www.baidu.com/search/robots.html
谷歌:HTTP://www.google.com/support/forum/p/webmasters/thread?tid=4dbbe5f3cd2f6a13&hl=zh-CN