小心別讓robots.txt阻擋了連結的抓取

來源:互聯網
上載者:User

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

我們知道有很大一部分的站長尋找一種不讓蜘蛛在自己網站上爬行自己網頁的方法,也同樣通過使用robot.txt檔做到了這點。 雖然這確實是一個很好的實踐行為,但問題也同樣呈現出來:在對使用robot.txt阻止Google/Yahoo!/MSN或者一些其他的搜尋引擎的蜘蛛爬行時的疑惑!下面的簡要的說明:

通過Robots.txt來阻止抓取:一些URL位址不想被訪問,但是仍然可以抓取並出現在搜尋引擎的結果頁面。

通過META標籤的NoIndex來阻止:可以訪問,但是不想被抓取,在搜尋結果中也不想被列出來。

通過禁止順著頁面上的連結繼續抓取來阻止:這不是一個很明智的舉動,因為有一些其他的連結任然希望通過抓取頁面來索引它! (如果你不在乎這會浪費蜘蛛在你頁面上檢索的時間的話那你也可以這樣做,但是不要認為這樣做就會讓它不出現在搜尋引擎的結果頁面)

下面給個簡單的例子雖然在robot.txt裡面限制了蜘蛛的抓取但是仍然會出現在Google的搜尋結果中。

  

(robot.txt檔同樣對子域有效)

我們可以看到這個about.com的/library/nosearch/檔已經被遮罩了,下圖所示當我們在Google裡搜索這個檔裡的URL位址的結果:

  

注意看Google依然有2,760個搜尋結果在所謂的被組織的目錄下。 它們沒有抓取這些頁面,所以看見的只有簡單的一個連結位址,沒有描述沒有標題,因為Google看不見這些頁面的內容。

讓我們在進一步的設想,如果你有很大一個數量的網頁不想被搜尋引擎抓取,但是這些URL位址還是會被計算在內,並累計流量等其他一些不為人知的獨立的排名因素,但是它們並不能順著這個連結繼續爬下去, 因此從它們那裡倒出的連結永遠不可能被看到,請看下圖:

  

這裡有兩個便捷的方法:

1. 節省這些連結資料流程通過當連結到robot.txt裡面禁止的的目錄時使用nofollow命令。

2. 如果你知道這些被禁止的頁面有哪些固定的連結流(特別是外鏈帶來的),可以考慮下使用meta的noindex,follow來代替,這樣蜘蛛就會跳過這些連結流,以便節省時間去檢索更多你網站裡需要它的頁面!

本文來自reamo個人SEO技術,網路推廣博客:HTTP://www.aisxin.cn轉載請注明出處。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.