石頭誋:神奇的robots見證網站的興衰

來源:互聯網
上載者:User

  很早就答應給啊彬寫一篇文章的,感謝他對我的一個協助,但是一直到現在也沒有寫出來,前幾天看到卓少問了一個問題關於robots的問題,給大家整理了一下robots的一些情況。robots.txt檔案放在網站根目錄下,是搜尋引擎中訪問網站的時候要查看的第一個檔案。當一個搜尋蜘蛛訪問一個網站時,它會首先檢查該網站根目錄下是否存在robots.txt,如果存在,搜尋機器人就會按照該檔案中的內容來確定訪問的範圍;如果該檔案不存在,所有的搜尋蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。每個網站都應該有一個robots,它告訴搜尋引擎我的網站裡有哪些東西是不允許抓取的,有哪些頁面是歡迎爬行與抓取。

  robots的幾種作用:

  1.屏蔽所有的搜尋引擎抓取資訊,如果你的網站只是你的私密性的網站,不想太多的人知道的話,可以利用robots屏蔽掉所有的搜尋引擎,例如你寫的私人部落格。你就可以把搜尋引擎全都屏蔽掉

  User-agent: *

  Disallow: /

  2.如果你只想某一個搜尋引擎抓取你的資訊,這個時候就可以用robots進行設定,例如:我只想我的網站被百度這個收錄,而不想被別的搜尋引擎收錄。就可以利用robots進行設定

  User-agent: Baiduspider

  Allow:

  User-agent: *

  Disallow: /

  3.可以利用各種萬用字元對網站進行相對應的調配,例如我不想網站抓取我的所有圖片,這個時候就可以運用$來進行設定。一般我們常見的圖片的格式是BMP、JPG、GIF、JPEG等格式。這個時候設定就是:

  User-agent: *

  Disallow: /.bmp$

  Disallow: /.jpg$

  Disallow: /.gif$

  Disallow: /.jpeg$

  4.還可以利用*來屏蔽掉相關的URL,有些網站不允許搜尋引擎抓取動態地址的時候可以利用這個*萬用字元來進行匹配設定。一般情況下動態URL的有一個特點就是有“?”這個時候我們就可以利用這個特性來進行匹配的屏蔽:

  User-agent: *

  Disallow: /*?*

  5.如果網站改版了,整個檔案夾都沒有了的時候,這個情況下就要考慮屏蔽掉整個檔案夾。我們可以運用robots來對這整個的檔案夾進行屏蔽,例如網站裡的ab檔案夾因改版全都給刪掉了,這個時候就可以這樣子設定:

  User-agent: *

  Disallow: /ab/

  6.如果網站裡有一個檔案夾不想被收錄,但是在這個檔案夾裡面有一個資訊是允許被收錄。那可以運用robots的allow進行設定。例如我網站裡ab檔案夾不允許搜尋引擎抓取,但是在ab檔案夾裡面又有一個資訊cd是允許被抓取的,這個時候就可以運用robots進行設定:

  User-agent: *

  Disallow: /ab/

  Allow:/ab/cd

  7.可以在robots裡定義出網站地圖的位置,有利於網站的收錄。

  sitemap:<網站地圖的位置>

  8.有的時候你會發現我的網站裡設定了robots但是還發現其收錄了這個URL地址,這個的原因是因為這個搜尋引擎的蜘蛛是通過URL爬行到網頁的一般 google抓取這樣子的URL的時候是不帶title與描述的,但是百度抓取這個URL會帶上title與描述,所以有很多有人會說我設定了 robots但是沒有效果。實際情況是抓取了這個連結而沒有收錄這個頁面內容。

  網站的首頁權重是最高的,權重是靠連結傳遞的,我們設定robots是為了更好的把權重傳遞給那些需要有很高權重的頁面,而有一些頁面則是不需要搜尋引擎抓取和爬行的。



相關文章

E-Commerce Solutions

Leverage the same tools powering the Alibaba Ecosystem

Learn more >

Apsara Conference 2019

The Rise of Data Intelligence, September 25th - 27th, Hangzhou, China

Learn more >

Alibaba Cloud Free Trial

Learn and experience the power of Alibaba Cloud with a free trial worth $300-1200 USD

Learn more >

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。