小心別讓robots.txt阻擋了連結的抓取

最後更新：2014-12-19 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷淘寶客雲主機技術大廳

我們知道有很大一部分的站長尋找一種不讓蜘蛛在自己網站上爬行自己網頁的方法，也同樣通過使用robot.txt檔做到了這點。雖然這確實是一個很好的實踐行為，但問題也同樣呈現出來：在對使用robot.txt阻止Google/Yahoo!/MSN或者一些其他的搜尋引擎的蜘蛛爬行時的疑惑!下面的簡要的說明：

通過Robots.txt來阻止抓取：一些URL位址不想被訪問，但是仍然可以抓取並出現在搜尋引擎的結果頁面。

通過META標籤的NoIndex來阻止：可以訪問，但是不想被抓取，在搜尋結果中也不想被列出來。

通過禁止順著頁面上的連結繼續抓取來阻止：這不是一個很明智的舉動，因為有一些其他的連結任然希望通過抓取頁面來索引它! (如果你不在乎這會浪費蜘蛛在你頁面上檢索的時間的話那你也可以這樣做，但是不要認為這樣做就會讓它不出現在搜尋引擎的結果頁面)

下面給個簡單的例子雖然在robot.txt裡面限制了蜘蛛的抓取但是仍然會出現在Google的搜尋結果中。

(robot.txt檔同樣對子域有效)

我們可以看到這個about.com的/library/nosearch/檔已經被遮罩了，下圖所示當我們在Google裡搜索這個檔裡的URL位址的結果：

注意看Google依然有2,760個搜尋結果在所謂的被組織的目錄下。它們沒有抓取這些頁面，所以看見的只有簡單的一個連結位址，沒有描述沒有標題，因為Google看不見這些頁面的內容。

讓我們在進一步的設想，如果你有很大一個數量的網頁不想被搜尋引擎抓取，但是這些URL位址還是會被計算在內，並累計流量等其他一些不為人知的獨立的排名因素，但是它們並不能順著這個連結繼續爬下去，因此從它們那裡倒出的連結永遠不可能被看到，請看下圖：

這裡有兩個便捷的方法：

1. 節省這些連結資料流程通過當連結到robot.txt裡面禁止的的目錄時使用nofollow命令。

2. 如果你知道這些被禁止的頁面有哪些固定的連結流(特別是外鏈帶來的)，可以考慮下使用meta的noindex，follow來代替，這樣蜘蛛就會跳過這些連結流，以便節省時間去檢索更多你網站裡需要它的頁面!

本文來自reamo個人SEO技術，網路推廣博客：HTTP://www.aisxin.cn轉載請注明出處。

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

小心別讓robots.txt阻擋了連結的抓取

聯繫我們

推薦話題

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support