仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
Robots.txt是用來告訴bot的存取權限,因Robots.txt協定並不是一個規範,而只是約定俗成的,通常大多數搜尋引擎會識別這個中繼資料,不索引這個頁面,以及這個頁面的鏈出頁面,使用方法是將robots.txt檔放在網站根目錄下。 舉例來說,當搜尋引擎訪問一個網站(比如HTTP://www.admin5.com)時,通常首先會檢查該網站中是否存在robots.txt這個檔,如果機器人找到這個檔,它就會根據這個檔的內容,來確定它存取權限的範圍。 閒話不扯了,進入正題:
經本人的試驗,對於一個遵守Robots.txt協定的蜘蛛,如果你修改Robots.txt過於頻繁,可直接導致將你的站「冷」處理!本人的站就已進入該黑洞了,之前百由於不想讓百度蜘蛛收錄商品清單的老頁面, 就直接B了百度蜘蛛訪問此頁,過了約3天,效果果真明顯,小CO還暗喜這蜘蛛真聽話,於是乎又想到網站內之前使用的幾個頁面。 現在也用不上了,而此前已被搜尋引擎收錄了N多頁,現在一起B了,於是修改了Robots.txt,這一改不要緊,兩于過去了,小CO再也高興不起來了,可愛的百度蜘蛛再也不哪麼勤快了(之前每天在站內爬2萬以上), 現在幾天也不到2萬,暈死。 上了當就得找原因:上邊說過了,一旦B了某個頁面,蜘蛛就不索引這個頁面,以及這個頁面的鏈出頁面,偶的就中了這個獎了! 很多人放出了他們自己修改的robots.txt檔,但都忽略了百度蜘蛛的爬行規律:並不是進入一個版塊後,就按照人類思維,按文章清單順序爬行的,我從自己的網站,已經證實這個問題:
比如文章清單第一篇爬完後,並不是接著爬第二篇,而是從第一個篇內容頁中的「熱點文章」等繼續爬(這就要求站內的貫通性較好!)。 從DZ官站的收錄頁URL就可以看出這個點,如果隨意遮罩/forum.php?mod=redirect* 或者/forum-redirect*這樣的路徑,可能會導致大部分網頁不被收錄。
不要用人的思維習慣來判斷編目程式的規律。 很多站長放了robots.txt後,就發現百度很少收錄自己的內頁,很可能就是這個原因。 所以用robots.txt檔來解決重複收錄問題,是很危險的,從程式上做根本解決才是上策!小CO是上當了。 希望有?的朋友慎用robots.txt!
(站長網首發,作者HTTP://www.tok8.cn轉載請注明出處)