仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
robots.txt檔,相比朋友們都或多或少的聽說過,也可能自己已經寫過了。 其實到目前為止我本人還沒寫過robots.txt檔,不是不會寫,只是感覺博客中沒什麼內容需要阻止蜘蛛抓取的。 而且想必大家也知道一個個人獨立博客中出現死連結的概率應該是非常小的,不需要過多的進行死連結處理所以我感覺沒什麼必要。 但是robots.txt檔寫法作為個人站長的必須掌握的技能之一,其用處還是很廣泛的。 這裡就詳細介紹下,也算是自己溫習溫習。
什麼是robots.txt檔
我們從這個檔案名來看,它是.txt尾碼名的,大家也應該知道這是一個文字檔,也就是記事本。 robots,懂點英語的人應該都人士,是機器人的意思,對我們而言這個機器人代表的就是搜尋引擎機器人,從名字上就可以猜到這個檔是我們專門寫給蜘蛛看的。 它的作用就是告訴蜘蛛,那些欄目或者是那些頁面不需要抓取,當然也可以直接遮罩掉某個蜘蛛的訪問。 注意,這個檔是放在網站根目錄下的,這樣才能保證蜘蛛可以在第一時間讀取檔內容。
robots檔的作用
其實robots檔最常被我們用到的就是遮罩網站內的死連結。 大家應該知道一個網站死連結多了會影響網站的權重。 但是網站死連結清理雖然說不上是麻煩,還是需要花上不少時間的,特別是如果站內死連結較多的情況下,清理起來很費勁,這時候robots檔的用處就體現出來了,我們可以直接將這些死連結按照格式寫入檔中阻止蜘蛛抓取, 想清理的或以後在慢慢清理。 有些網站內容中包含一些站長不想讓蜘蛛抓取的url或檔,也可以直接遮罩。 對於遮罩蜘蛛,用到的一般都比較少。
robots檔的寫法
這一點應該是比較重要的了。 如果寫錯了想遮罩的沒成功,想被抓取的卻寫進去自己不能及時發現可就虧大了。 首先我們要知道兩個標籤,Allow和Disallow,一個是允許,一個是不允許,它的作用相比大家也都能理解。
User-agent: *
Disallow:
或者
User-agent: *
Allow:
這兩段內容表示的都是允許抓取所有,實際上遮罩url和檔用到的是Disallow標籤,除非你的網站只有幾條想要被抓取採用Allow標籤。 這個User-agent:後面跟的就是蜘蛛名稱,大家對主流的搜尋引擎蜘蛛名稱應該比較熟悉。 下面以搜搜蜘蛛為例:Sosospider。
當我們想遮罩搜搜蜘蛛的時候:
User-agent: sosospider
Disallow: /
大家可以發現這個遮罩蜘蛛跟上面允許相比只是多了一個「/」,其含義就起了翻天覆地的變化,所以在書寫的時候要千萬注意,可不能因為多寫個斜杠遮罩了蜘蛛自己卻不知道。 還有就是在user-agent:後邊不屑固定蜘蛛名稱跟的如果是「*」表示是針對所有蜘蛛的。
禁止某個目錄被搜尋引擎蜘蛛抓取,設置代碼如下:
User-agent: *
Disallow: /目錄/
注意,這裡如果是阻止抓取某目錄的話目錄名字一定要注意「/」,不帶「/」表示的是阻止訪問這個目錄頁面和目錄下的頁面,而帶上「/」則表示進阻止目錄下的內容頁面,這兩點要分清楚。 如果是想遮罩多個目錄就需要採用
User-agent: *
Disallow: /目錄1/
Disallow: /目錄2/
這樣的形式,不能採用 /目錄1/目錄2/ 這樣的形式。
如果是阻止蜘蛛訪問某一類型的檔,例如阻止抓取.jpg格式的圖片可以設置成:
User-agent: *
Disallow: .jpg$
以上是上海seo小馬針對整個網站的robots檔的寫法,只是講的robots寫法的類型和注意事項,像針對性遮罩蜘蛛或者是其他的具體寫法描述的少了點, 但是知道allow和disallow的含義進行思考可以衍生出不少其他的寫法含義。 還有針對具體網頁的robots meta網頁標籤寫法,不過一般情況下用的不是很多。
以上由上海seo小馬HTTP://www.mjlseo.com/整理,轉載請注明,謝謝