仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
這是偉大的時候,搜尋引擎經常訪問你的網站和索引你的內容,但往往在有些情況下,當索引部分,你的線上內容是不是你想要的。 舉例來說,如果你有兩個版本的網頁(一個用於觀景,在瀏覽器和一個用於列印) ,你都寧願有印刷版排除在爬行,否則,你就有可能被強加的重複內容的刑罰。 另外,如果你恰好有機密資料對你的網站說,你不想讓世界看到的,你也會喜歡,搜尋引擎不要索引這些頁面(雖然在這種情況下,唯一可靠的途徑不是索引敏感的資料,是保持離線對一個單獨的機器) 。 此外,如果您想節省一些頻寬所不計形象,樣式和JavaScript從索引中,你也需要有一個方式告訴蜘蛛,遠離了這些專案。
其中一個方法告訴搜尋引擎哪些檔和資料夾上你的網站,以避免是與使用robot MetaTags。 但由於並非所有的搜尋引擎閱讀MetaTags ,機robot MetaTags可以簡單地被忽視。 更好的方式來告知搜尋引擎對您將是使用robots.txt檔。
什麼是robots.txt的?
robots.txt的是一個文字(而不是HTML )的檔案,你把你的網站告訴搜索機器人哪些頁面,你想他們不要訪問。 robots.txt的絕不是強制性的搜尋引擎,但一般來說,搜尋引擎服從什麼卻要求他們不要做。 這是必須澄清的robots.txt是沒有辦法阻止搜尋引擎從抓取你的網站(即它不是一個防火牆,或者說是一種密碼保護)和事實,即你把robots.txt檔是一樣的東西再一次說明: "拜託,不要輸入" ,對一個沒有上鎖的門-例如 ,你不能防止竊賊進入,但好人不會公開進行盤查,並進入。 這就是為什麼我們說,如果你真的有特殊教育需要的敏感性資料,這是太天真的依賴robots.txt的,以保護它被索引並顯示在搜尋結果中。
所在地的robots.txt是非常重要的。
它必須在主目錄中,因為否則使用者代理(搜尋引擎)將無法找到它-他們不搜尋整個網站一檔名為r obots.txt的。 相反,他們首先在主目錄(即HTTP://mydomain.com/robots.txt ) ,如果他們不覺得有,他們只是假設這個網站沒有一個robots.txt檔,所以他們指數千方百計尋找前進的道路。 所以,如果你不把robots.txt的,在合適的地點,並不感到驚訝,搜尋引擎索引你的整個網站。
概念和結構的robots.txt已發展了10多年前,如果你有興趣更多地瞭解它,請訪問HTTP://www.robotstxt.org/或者你可以直去,以標準為機器人排斥 , 因為在這篇文章中我們將只處理最重要的方面robots.txt檔。 今後我們將繼續進行結構robots.txt檔。
robots.txt檔結構
一個robots.txt的結構,是相當簡單的(勉強靈活) -它是一個永無止境的名單上的使用者代理及禁止的檔和目錄。 基本上,語法如下:
User-agent:
Disallow:
「 User-agent」 ,是搜尋引擎的抓取工具,並不准:列出的檔和目錄被排除索引。 此外,「user-agent:」 and 「disallow:」: "參賽作品,你可以包括評論線-只是把編號登錄在一開始的路線:
#所有使用者代理是不准看/ Temp目錄。
User-agent: *
Disallow: /temp/
e陷阱的robots.txt檔
當你開始做複雜的檔-即你決定,讓不同的使用者代理商接觸不同目錄-問題就可以啟動,如果你不特別注意陷阱的r o bots.txt檔。 Common mistakes include typos and contradicting directives.常見的錯誤包括錯別字和矛盾的指令。 錯別字都拼錯使用者代理,目錄,失蹤冒號後,使用者Agent和批駁,錯別字等,可能比較難找到,但在某些情況下,驗證工具的説明。
更嚴重的問題在於邏輯錯誤。 例如:
User-agent: *
Disallow: /temp/
User-agent: Googlebot
Disallow: /images/
Disallow: /temp/
Disallow: /cgi-bin/
上面的例子是從一個robots.txt的,讓所有代理商,以獲得網站上的一切,除了/ Temp目錄。 截至到這裡,這是不錯,但後來也有另一種記錄,規定更嚴格的條件, 當googlebot開始讀robots.txt的,它會看到所有使用者代理(包括googlebot自己) ,讓所有資料夾中除了/temp/ 。 這還不夠,為googlebot知道,所以它不會讀檔除了/images/ and /cgi-bin/ ,其中,你認為你告訴它不要觸摸。 你看,結構的robots.txt檔很簡單,但仍犯了嚴重錯誤,可以很容易取得。
工具,以生成和驗證robots.txt檔
考慮到簡單語法的robots.txt檔,您也可以隨時閱讀,它看到的,如果一切是好,但它是非常容易使用一個校驗器,像這樣: HTTP://tool.motoricerca.info/robots- checker.phtml 。 這些工具的報導常見錯誤像失蹤斜線或冒號,如果不妥協,發現你的努力。 例如,如果你輸入:
User agent: *
Disallow: /temp/
這是不對的,因為"user"和"agent"和語法是不正確。
在這種情況下,當你有一個複雜的robots.txt檔-即你給不同的指令,以不同的使用者代理或你有一個長長的清單目錄和子目錄中排除,以書面檔手動可以是一個真正的痛苦。 不過,你不用擔心-有工具,將產生檔給你。 更甚的是,有視覺工具,讓點,並選擇其中的檔和資料夾都被排除在外。 但即使你不覺得自己如同你買了圖形化工具的robots.txt一代,有線上工具,以協助你。 舉例來說, 伺服器端的機器人發電機提供了一個下拉清單中的使用者代理和一個文字方塊,為您列出檔案,你不想索引。 坦白說,這是沒有太大的説明,除非你要設定具體的規則,為不同的搜尋引擎,因為在任何情況下,它是由您鍵入名單目錄但更勝於無。
作者網站 www.mingrenzhuanji.cn