淺談網站robots的寫法

來源:互聯網
上載者:User

  站長的工作是設計精美的網站,為福士展現網站豐富多彩的內容。當然,我們也希望精心設計的網站獲得理想的排名,這就要求我們去研究搜尋引擎排名規律,最大程度的獲得機會展現給客戶。然而,搜尋引擎種類很多,有時候,我們對某一種搜尋引擎的排名很好,卻在另外的搜尋引擎上面獲得不到一樣的排名,原因是各個搜尋引擎規則不一樣。為此,有人複製出相同的內容以應付不同搜尋引擎的排名規則。然而,一旦搜尋引擎發現站內有大量“複製”的頁面,就會給以懲罰,不收錄這些重複的頁面。另一方面,我們網站的內容屬於個人私密檔案,不想暴露在搜尋引擎中。這時,robot.txt就是為瞭解決這兩個問題。

  一、搜尋引擎和其對應的User-Agent

  那麼,目前有哪些搜尋引擎和其對應的User-Agent呢?下面,我列出了一些,以供參考。

  搜尋引擎 User-Agent

  AltaVista Scooter

  baidu Baiduspider

  Infoseek Infoseek

  Hotbot Slurp

  AOL Search Slurp

  Excite ArchitextSpider

  Google Googlebot

  Goto Slurp

  Lycos Lycos

  MSN Slurp

  Netscape Googlebot

  NorthernLight Gulliver

  WebCrawler ArchitextSpider

  Iwon Slurp

  Fast Fast

  DirectHit Grabber

  Yahoo Web Pages Googlebot

  Looksmart Web Pages Slurp

  二、robots基本概念

  Robots.txt檔案是網站的一個檔案,它是給搜尋引擎蜘蛛看的。搜尋引擎蜘蛛爬行道我們的網站首先就是抓取這個檔案,根據裡面的內容來決定對網站檔案訪問的範圍。它能夠保護我們的一些檔案不暴露在搜尋引擎之下,從而有效控制蜘蛛的爬取路徑,為我們站長做好seo創造必要的條件。尤其是我們的網站剛剛建立,有些內容還不完善,暫時還不想被搜尋引擎收錄時。

  robots.txt也可用在某一目錄中。對這一目錄下的檔案進行搜尋範圍設定。

  幾點注意:

  網站必須要有一個robot.txt檔案。

  檔案名稱是小寫字母。

  當需要完全屏蔽檔案時,需要配合meta的robots屬性。

  三、robots.txt的基本文法

  內容項的基本格式:鍵: 值對。

  1) User-Agent鍵

  後面的內容對應的是各個具體的搜尋引擎爬行器的名稱。如百度是Baiduspider,Google是Googlebot。

  一般我們這樣寫:

  User-Agent: *

  表示允許所有搜尋引擎蜘蛛來爬行抓取。如果只想讓某一個搜尋引擎蜘蛛來爬行,在後面列出名字即可。如果是多個,則重複寫。

  注意:User-Agent:後面要有一個空格。

  在robots.txt中,鍵後面加:號,後面必有一個空格,和值相區分開。

  2)Disallow鍵

  該鍵用來說明不允許搜尋引擎蜘蛛抓取的URL路徑。

  例如:Disallow: /index.php 禁止網站index.php檔案

  Allow鍵

  該鍵說明允許搜尋引擎蜘蛛爬行的URL路徑

  例如:Allow: /index.php 允許網站的index.php

  萬用字元*

  代表任意多個字元

  例如:Disallow: /*.jpg 網站所有的jpg檔案被禁止了。

  結束符$

  表示以前面字元結束的url。

  例如:Disallow: /?$ 網站所有以?結尾的檔案被禁止。

  四、robots.txt執行個體分析

  例1. 禁止所有搜尋引擎訪問網站的任何部分

  User-agent: *

  Disallow: /

  例2. 允許所有的搜尋引擎訪問網站的任何部分

  User-agent: *

  Disallow:

  例3. 僅禁止Baiduspider訪問您的網站

  User-agent: Baiduspider

  Disallow: /

  例4. 僅允許Baiduspider訪問您的網站

  User-agent: Baiduspider

  Disallow:

  例5. 禁止spider訪問特定目錄

  User-agent: *

  Disallow: /cgi-bin/

  Disallow: /tmp/

  Disallow: /data/

  注意事項:1)三個目錄要分別寫。2)請注意最後要帶斜杠。3)帶斜杠與不帶斜杠的區別。

  例6. 允許訪問特定目錄中的部分url

  我希望a目錄下只有b.htm允許訪問,怎麼寫?

  User-agent: *

  Allow: /a/b.htm

  Disallow: /a/

  註:允許收錄優先順序要高于禁止收錄。

  從例7開始說明萬用字元的使用。萬用字元包括("$" 結束符;

  "*"任意符)

  例7. 禁止訪問網站中所有的動態網頁面

  User-agent: *

  Disallow: /*?*

  例8. 禁止搜尋引擎抓取網站上所有圖片

  User-agent: *

  Disallow: /*.jpg$

  Disallow: /*.jpeg$

  Disallow: /*.gif$

  Disallow: /*.png$

  Disallow: /*.bmp$

  其他很多情況呢,需要具體情況具體分析。只要你瞭解了這些文法規則以及萬用字元的使用,相信很多情況是可以解決的。

  五、meta robots標籤

  meta是網頁html檔案的head標籤裡面的標籤內容。它規定了此html檔案對與搜尋引擎的抓取規則。與robot.txt 不同,它只針對寫在此html的檔案。

  寫法:

       <meta name="robots" content="…" />。

  …裡面的內容列出如下

  noindex - 阻止頁面被列入索引。

  nofollow - 阻止對於頁面中任何超級連結進行索引。

  noarchive - 不儲存該頁面的網頁快照。

  nosnippet - 不在搜尋結果中顯示該頁面的摘要資訊,同時不儲存該頁面的網頁快照。

  noodp - 在搜尋結果中不使用Open Directory Project中的描述資訊作為其摘要資訊。

  六、robots的測試

  在Google站長工具中,添加網站後使用左側的抓取工具的許可權,就可以對網站的robots進行測試了,詳細見圖。

  

 

  robots.txt和mtea robots的內容就介紹到這裡,相信大家對robot已經有了比較詳細的瞭解。使用好robots對於我們網站的seo有著重要作用,做的好,可以有效屏蔽那些我們不想讓搜尋引擎抓取的頁面,也就是對使用者體驗不高的頁面,從而將有利於關鍵詞排名的內頁充分展示個客戶,獲得搜尋引擎對站內頁面的權重,從而有利於我們將關鍵詞排名做的更好。

  本文由idsem小組吉智剛編寫 著作權連結:http://www.idsem.com 尊重著作權轉載請註明!!!



相關文章

E-Commerce Solutions

Leverage the same tools powering the Alibaba Ecosystem

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。