隨意修改robots.txt 小心搜尋引擎不收錄你的站

來源:互聯網
上載者:User
關鍵字 Robots.txt

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

Robots.txt是用來告訴bot的存取權限,因Robots.txt協定並不是一個規範,而只是約定俗成的,通常大多數搜尋引擎會識別這個中繼資料,不索引這個頁面,以及這個頁面的鏈出頁面,使用方法是將robots.txt檔放在網站根目錄下。 舉例來說,當搜尋引擎訪問一個網站(比如HTTP://www.admin5.com)時,通常首先會檢查該網站中是否存在robots.txt這個檔,如果機器人找到這個檔,它就會根據這個檔的內容,來確定它存取權限的範圍。 閒話不扯了,進入正題:

經本人的試驗,對於一個遵守Robots.txt協定的蜘蛛,如果你修改Robots.txt過於頻繁,可直接導致將你的站「冷」處理!本人的站就已進入該黑洞了,之前百由於不想讓百度蜘蛛收錄商品清單的老頁面, 就直接B了百度蜘蛛訪問此頁,過了約3天,效果果真明顯,小CO還暗喜這蜘蛛真聽話,於是乎又想到網站內之前使用的幾個頁面。 現在也用不上了,而此前已被搜尋引擎收錄了N多頁,現在一起B了,於是修改了Robots.txt,這一改不要緊,兩于過去了,小CO再也高興不起來了,可愛的百度蜘蛛再也不哪麼勤快了(之前每天在站內爬2萬以上), 現在幾天也不到2萬,暈死。 上了當就得找原因:上邊說過了,一旦B了某個頁面,蜘蛛就不索引這個頁面,以及這個頁面的鏈出頁面,偶的就中了這個獎了! 很多人放出了他們自己修改的robots.txt檔,但都忽略了百度蜘蛛的爬行規律:並不是進入一個版塊後,就按照人類思維,按文章清單順序爬行的,我從自己的網站,已經證實這個問題:

比如文章清單第一篇爬完後,並不是接著爬第二篇,而是從第一個篇內容頁中的「熱點文章」等繼續爬(這就要求站內的貫通性較好!)。 從DZ官站的收錄頁URL就可以看出這個點,如果隨意遮罩/forum.php?mod=redirect* 或者/forum-redirect*這樣的路徑,可能會導致大部分網頁不被收錄。

不要用人的思維習慣來判斷編目程式的規律。 很多站長放了robots.txt後,就發現百度很少收錄自己的內頁,很可能就是這個原因。 所以用robots.txt檔來解決重複收錄問題,是很危險的,從程式上做根本解決才是上策!小CO是上當了。 希望有?的朋友慎用robots.txt!

(站長網首發,作者HTTP://www.tok8.cn轉載請注明出處)

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.