仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
平時做站的過程中,為了集中權重或者平衡分配權重,都會使用robots檔。 這個檔雖然只是一個簡單的記事本,但是裡邊的內容卻能影響網站的整體收錄情況。 這個檔看上去很簡單,但在實際過程中有很多站長不知道如何合理的書寫自己網站的robots檔,也有的怕出錯誤,乾脆就沒寫。 所以結合這些情況,我和大家總結下在實際中robots檔應該如何正確的書寫。
想要寫好這個檔,必須注意幾個方面,常見的是它的格式,一些萬用字元的使用,搜尋引擎蜘蛛的分類以及一些其它的常見錯誤等。 只有先把這些問題搞清楚了,才能寫出正確、符合自己網站的robots檔。 好了,開始今天的內容,歡迎大家指正。
robots作用:用一句簡單的話講,它就是一個協定,告訴搜尋引擎哪些內容可以爬行收錄,哪些不可以爬行收錄,從而達到簡單控制網站權重的目的。 當搜尋引擎訪問一個網站時,首先就看根目錄下有沒有一個robots.txt純文字檔,如果有的話,就會遵循上邊的協定,不會爬行哪些被禁止的頁面,而沒有被禁止或者robots檔為空時,搜尋引擎會預設訪問所有的檔。 順便提一下,如果網站沒有robots檔,那麼最好做一個放在根目錄中,即使裡邊為空的,也對搜尋引擎有説明。
格式要小心:以前我遇到過因為格式的問題而導致網站不收錄了的現象,尤其是禁止收錄的使用。 在robots檔中,最常用的就是/的使用,這個/表示網站的根目錄,如果在Disallow後邊加上這個/的話,那麼就表示禁止搜尋引擎抓取任何內容。 常見的格式如下:
User-agent:*
Disallow:/
這個內容表示禁止搜尋引擎抓取所有的內容,如果想要所有的全部收錄,那麼只需要把Disallow變成Allow就行了。
萬用字元:有時網站有很多重複內容,比如一些B2C網站的排序功能,列印功能,分頁功能等,這些並不需要被抓取,因此在robots中就需要使用萬用字元。 常見的萬用字元就是*,它代表了所有的搜尋引擎。 $則匹配URL結尾的字元,比如想要搜尋引擎抓取html為尾碼的所有檔,那麼就可以這樣寫:
User-agent:*
Allow:.html$
如果是禁止搜尋引擎抓取所有html頁面,則可以這樣寫:
User-agent:*
Disallow:/*.html
不用蜘蛛分類:不同的搜尋引擎一般有不同的蜘蛛,在robots中也需要對搜尋引擎的蜘蛛進行定義,如果需要全部搜尋引擎榨取或者不榨取,那麼使用上邊提的萬用字元*就可以了。 這裡和大家分享下不同搜尋引擎的不同蜘蛛。 百度蜘蛛是Baiduspider,Google蜘蛛則是Googlebot,現在一般用這兩個的比較多些,除此之外,搜搜和搜狗蜘蛛也類似于百度蜘蛛,用到的地方不是太多。 一般情況下,主流的搜尋引擎都支援robots檔。
應用實例和注意事項:在robots中每一行必須對應一個專案,如果有兩個或者多個禁止收錄的,那麼必須分開寫,一行一個,不能同時放在一行中,否則就不會被識別。 如果是想讓某一個搜尋引擎不抓取,而其它所有的搜尋引擎都抓取的話,要分開寫兩個User-agent和Disallow。 另外如果允許一個資料夾的部分被抓取,部分被禁止抓取的話,那麼要Disallow與Allow混合使用,比如SEO資料夾中的aa資料夾不被抓取,那麼就可以這樣寫:
User-agent:*
Disallow:/SEO/
Allow:/SEO/aa/
另外,還可以在robots檔中寫上網站地圖的位置,這樣更加利於搜尋引擎的爬行和抓取。 比如Sitemap:XML地圖位置。 這樣把需要收錄的檔通過XML展現給搜尋引擎,能夠加快收錄。 不過需要指出的是並不是所有的檔經過Robots遮罩後就不出現在搜尋結果中,如果這個網頁有導入連結,那麼使用者還是能從搜尋結果中查詢到這個頁面,因此想要完全不出現,則要配合meta robots標籤來實現。 這個以後再和大家分享。
好了,本文到這裡,如果還有其它不懂的地方,歡迎和我交流。 本文來自:趣播網,網址:HTTP://www.7v7.cc/,轉載請保留版權,謝謝!