仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
有些時候我們會遇到這樣的困難:我們原本不想被搜尋引擎收錄的網站後臺位址卻被搜尋引擎「無情」的收錄,這樣只要在Google裡輸入一個「後臺、管理site:www.***.com」,自己的後臺位址就會顯露無疑, 因此網站安全性也無從談起。 遇到這樣的情況時,我們如何阻止搜尋引擎收錄我們不想被收錄的檔呢?
一般在這個時候,我們常用的辦法有兩個,一個是編輯robots.txt檔,另外一個是在不想被收錄的頁面頭部放置META NAME="ROBOTS"標籤。
所謂的robots.txt檔,是每一個搜尋引擎到你的網站之後要尋找和訪問的第一個檔,robots.txt是你對搜尋引擎制定的一個如何索引你的網站的規則。 通過這個檔,搜尋引擎就可以知道在你的網站中,哪些檔是可以被索引的,哪些檔是被拒絕索引的。
在很多網站中,站長們都忽略了使用robots.txt檔。 因為很多站長都認為,自己的網站沒有什麼秘密可言,而且自己也不太會使用robots.txt的語法,因此一旦寫錯了會帶來更多的麻煩,還不如乾脆不用。
其實這樣的做法是不對的。 在前面的文章中我們知道,如果一個網站有大量檔找不到的時候(404),搜尋引擎就會降低網站的權重。 而robots.txt作為蜘蛛訪問網站的第一個檔,一旦搜尋引擎要是找不到這個檔,也會在他的索引伺服器上記錄下一條404資訊。
雖然在百度的説明檔中,有這樣的一句話「請注意,僅當您的網站包含不希望被搜尋引擎收錄的內容時,才需要使用robots.txt檔。 如果您希望搜尋引擎收錄網站上所有內容,請勿建立robots.txt檔。 」但是我個人還是認為建立robots.txt還是必須的,哪怕這個robots.txt檔是一個空白的文字文件都可以。 因為我們的網站畢竟不是僅僅會被百度收錄,同時也會被其他搜尋引擎收錄的,所以,上傳一個robots.txt檔還是沒有什麼壞處的。
如何寫一個合理的robots.txt檔?
首先我們需要瞭解robots.txt檔的一些基本語法。
語法作用
寫法
允許所有搜尋引擎訪問網站的所有部分
或者建立一個空白的文字文件,命名為robots.txt
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
禁止所有搜尋引擎訪問網站的所有部分
User-agent: *
Disallow: /
禁止百度索引你的網站
User-agent: Baiduspider
Disallow: /
禁止Google索引你的網站
User-agent: Googlebot
Disallow: /
禁止除Google外的一切搜尋引擎索引你的網站
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
禁止除百度外的一切搜尋引擎索引你的網站
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
禁止蜘蛛訪問某個目錄
(例如禁止admin\css\images被索引)
User-agent: *
Disallow: /css/
Disallow: /admin/
Disallow: /images/
允許訪問某個目錄中的某些特定網址
User-agent: *
Allow: /css/my
Allow: /admin/html
Allow: /images/index
Disallow: /css/
Disallow: /admin/
Disallow: /images/
使用「*」,限制訪問某個尾碼的功能變數名稱
例如索引訪問admin目錄下所有ASP的檔
User-agent: *
Disallow: /admin/*.htm
使用「$」僅允許訪問某目錄下某個尾碼的檔