仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
俗話說:懂技術的不一定懂SEO,懂SEO的不定懂技術,但是對於站長們來說,必選要孰知最基本的技術,不要求懂得高深的語言,但是基本的搜尋引擎協定是需要孰知的。 跟站長們交流的時候發現,很多站長都無法正確抓握搜素協定,特別是在robots.txt檔上,北京兼職吧給大家說說此協定到底深奧在何處。
robots.txt檔是網站根目錄下面的純文字檔,是蜘蛛索引網站時第一個要讀取的檔,它用於指定spider在您網站上的抓取範圍,當網站中有不需要被蜘蛛抓取的內容時,可以使用robots.txt檔加入遮罩,以免增加網站蜘蛛的抓取難度。 但是就這神奇的檔,可以説明你網站更好的優化,也可以使一部分站長栽倒在它身上。
首先要正確寫作檔案格式。 此檔的命名必須為robots.txt,必須防止到網站的根目錄下,必須通過HTTP://www.jianzhi8.com/robots.txt可以訪問到,只要這樣蜘蛛來網站索引時,首先抓取此檔,然後根據此檔的指數再去索引網站其他位置。 要想正確的寫對robots檔,首頁要對檔的基本函數進行瞭解:
User-agent:在後面加上* 意思是允許任何搜尋引擎對網站進行抓取; User-agent: Baiduspider意思是允許百度搜尋引擎對網站進行抓取,如果網站中只寫了這個屬性,那就表明此網站只接受百度蜘蛛的抓取,其他蜘蛛不可以索引。
Disallow:這個函數的意思是靜止蜘蛛訪問函數後面的網站目錄,如果網站所有的都允許那就寫:如果都允許收錄: Disallow:,像淘寶網的檔中寫到,禁止百度蜘蛛的抓取,網站任何位置都不允許抓取。
User-agent: Baiduspider
Disallow: /
Disallow函數的/之差,給網站帶來的影響是巨大的,所有站長們一定要學會正確的寫robots檔,至少上面說到的那個函數要清楚。 給大家看下面的列子:
User-agent: *
Disallow: / 不允許抓網站的任何目錄
Allow: / 允許抓取
上面的robots檔寫法出現了嚴重的錯誤,簽名寫上不允許蜘蛛抓取網站的任何目錄後面寫的是允許所有搜尋引擎抓取網站頁面,對於這樣的robots檔案格式,等蜘蛛的資料庫更新後,網站的收錄會變成0, 並不是因為網站的優化手段出錯,也不是因為網站使用作弊手法,而是站長一不小心栽倒robots檔上了,這虧就吃大咯。
合理利用robots檔可以説明網站更好的收錄,但是錯誤的寫法可能導致損失嚴重。 給站長們說幾點利用robots檔提高優化的方法:
1、減少重複收錄,檢查網站收錄時會發現,蜘蛛會重複收錄網站的內容,不僅可以收錄. Html的,還可以收錄帶*?*的動態頁面,這時我們並可以使用robots檔案檢測,避免重複收錄:Disallow: /*?*。
2、只允許訪問以.htm介紹的URL,網站有時因為程式問題,會有多條路徑訪問內頁,但是為了只讓蜘蛛收錄和抓取.htm介紹的URL,可以在檔中使用"$"限制訪問url,Allow: /*.htm$,Disallow: / , 這樣並可以僅允許訪問以".htm"為尾碼的URL。
3、有的網站為了提高使用者的體驗度,會給網站添加大量的動態圖片,但是這些圖片又很難被蜘蛛抓取,這些圖片對網站的優化意義又不大,這時並可在檔中添加函數:Disallow: /*.gif$,並可禁止蜘蛛抓取.gif格式圖片。
robots檔的發展已經有10年之余,很多搜尋引擎已經對檔進行認可,正確的檔使用可更好的説明站長們優化網站,這些搜索協定真的算不上是技術的東西,不管是對新手站長們還是老鳥們,這些基本的東西都應該要知道的, 否則使用不當便會造成很大的影響。 北京兼職吧(HTTP://bj.jianzhi8.com)希望站長們閒暇之余還是要學些技術,以免栽倒的冤枉無話說。