網頁收錄問題
1. 如何讓我的網站(獨立網站或者blog)被百度收錄?
* 百度會收錄符合使用者搜尋體驗的網站和網頁。
* 為促使百度Spider更快的發現您的網站,您也可以向我們提交一下您的網站的入口網址。提交地址是:http://www.baidu.com/search/url_submit.html。您只需提交首頁即可,無需提交詳細的內容頁面。
* 百度的網頁收錄機制,只和網頁價值有關,與競價排名等商業因素沒有任何關聯。
2. 如何讓我的網頁不被百度收錄?
* 百度嚴格遵循搜尋引擎Robots協議(詳細內容,參見http://www.robotstxt.org/)。
* 您可以寫一個Robots檔案以限制您的網站全部網頁或者部分目錄下網頁不被百度收錄。具體寫法,參見:如何撰寫Robots檔案。
* 如果您的網站是在被百度收錄之後再設定Robots檔案,則Robots檔案通常在兩周內生效,被檔案限制的內容,將從百度搜尋結果中移除。
* 如果您的拒絕被收錄需求非常急迫,也可以發郵件給webmaster@baidu.com
請求處理。
3. 為什麼我的網站內一些不設連結的私密性網頁,甚至是需要存取權限的網頁,也會被百度收錄?
* 百度Spider對網頁的抓取,是通過網頁與網頁之間的連結實現的。
* 網頁之間的連結類型,除了網站內部的頁面連結之外,還有不同網站之間的互相連結。因此,某些網頁即便通過您的網站內部連結無法訪問到,但是,如果別人的網站上有指向這些頁面的連結,那麼這些頁面還是會被搜尋引擎所收錄。
* 百度Spider的存取權限,和普通使用者是一樣的。因此,普通使用者沒有許可權訪問的內容,Spider也沒有許可權訪問。之所以看上去某些存取權限限制內容被百度收錄,原因有兩點:
A. 該內容在Spider訪問時是沒有許可權限制的,但抓取之後,內容的許可權發生了變化
B. 該內容有許可權限制,但是由於網站安全性漏洞問題,導致使用者可以通過某些特殊路徑直接存取。而一旦這樣的路徑被公布在互連網上,則Spider就會循著這條路徑抓出受限內容