談談關於Robots.txt的幾個要點

來源:互聯網
上載者:User

  從事seo最佳化的工作人員必須要瞭解Robots.txt ,這是一個合格的seoer必須瞭解的知識。那麼,到底robots有什麼需要瞭解的呢?

  首先,作為一名合格的seo工作人員,必須要瞭解,Robots.txt是一個協議,而不是一個命令。robots.txt是搜尋引擎訪問網站的時候要查看的第一個檔案。robots.txt檔案告訴蜘蛛程式在伺服器上什麼檔案是可以被查看的,以及什麼檔案是不允許被蜘蛛程式抓取的。

  通常情況下,當蜘蛛來到你的網站以後,首先就是要看根目錄下是否存在robots.txt這個檔案,如果存在,則蜘蛛遵循robots.txt的協議;如果不存在,則蜘蛛會預設爬取網站的所有檔案。

  瞭解了這些,想必大家都瞭解到robots的重要性了,那麼到底robot的寫法有哪些要點呢?今天煙台腋臭之家就談一下自己的一些看法:

  1. robots.txt必須放置在一個網站的根目錄下,而且檔案名稱必須全部小寫.

  2. 常用命令

  User-agent: 定義搜尋引擎的類型

  Disallow: 定義禁止搜尋引擎收錄的地址

  Allow: 定義允許搜尋引擎收錄的地址

  Sitemap:定義搜尋引擎爬取的網站地圖的地址

  3. 對於User-agent的寫法,有些需要注意的方面

  User-agent: *

  這裡的*代表的所有的搜尋引擎種類,*是一個萬用字元。如果要對特定的蜘蛛程式進行限制,則需要改變寫法。利於對google蜘蛛添加特定的指令,則需要寫成 User-agent: Googlebot ;寫成這樣的的定義類型,下面再寫針對其的特殊協議,如Allow和Disallow等。

  4. Disallow和Allow分別代表禁止抓取和允許抓取,在後邊寫上相應的地址就可以。如Disallow: /tmp/ ,這樣就是要禁止抓取tmp目錄了。

  而對於要特別限制針對某種類型檔案的寫法,則需要瞭解一下$ 這個符號了。$ 代表的是匹配網址的結束字元,如 /.jpg$ ,這樣的形式就是表示尾碼名為jpg的所有檔案了。這樣再加上Disallow和Allow命令就可以限制抓取了。

  5. Sitemap的寫法

  Sitemap的寫法必須採用絕對位址,即Sitemap:http://www.xx.com/map.xml ;寫成這樣的形式才能被蜘蛛讀取,如果寫成相對位址的形式,則會提示法錯誤。

  另外,還需要注意的一點,就是Sitemap的網站地圖必須要在網站的根目錄下才有效。

  6. 目前用Robots.txt來限制搜尋引擎蜘蛛抓取網站內容的辦法只是一種規則,需要搜尋引擎蜘蛛的配合才行,並不是每個蜘蛛都全部遵守Robots.txt的。

  以上6點就是煙台腋臭之家關於Robots.txt的一些看法,相信會對一些seo新手有一定的協助吧。本文由煙台腋臭之家http://www.tua9.com 供稿,轉載請註明出處。



相關文章

E-Commerce Solutions

Leverage the same tools powering the Alibaba Ecosystem

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。