仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
Robots.txt 帶來的好處:
1. 幾乎所有的搜尋引擎 Spider 都遵循 robots.txt 給出的爬行規則,協定規定搜尋引擎 Spider 進
入某個網站的入口即是該網站的 robots.txt,當然,前提是該網站存在此檔。 對於沒有配置robots.txt 的網站,Spider 將會被重定向至 404 錯誤頁面,相關研究表明,如果網站採用了自訂的 404 錯誤頁面,那麼 Spider 將會把其視作 robots.txt——雖然其並非一個純粹的文字檔—— 這將給 Spider 索引網站帶來很大的困擾,影響搜尋引擎對網站頁面的收錄。
2. robots.txt 可以制止不必要的搜尋引擎佔用伺服器的寶貴頻寬,如 email retrievers,這類搜索
引擎對大多數網站是沒有意義的;再如 image strippers,對於大多數非圖形類網站來說其也沒有太大意義,但卻耗用大量頻寬。
3. robots.txt 可以制止搜尋引擎對非公開頁面的爬行與索引,如網站的幕後程式、管理程式,事實上,對於某些在運行中產生臨時頁面的網站來說,如果未配置 robots.txt,搜尋引擎甚至會索引那些暫存檔案。
4. 對於內容豐富、存在很多頁面的網站來說,配置 robots.txt 的意義更為重大,因為很多時候
其會遭遇到搜尋引擎 Spider 給予網站的巨大壓力:洪水般的 Spider 訪問,如果不加控制,甚至會影響網站的正常訪問。
5. 同樣地,如果網站記憶體在重複內容,使用 robots.txt 限制部分頁面不被搜尋引擎索引和收錄,可以避免網站受到搜尋引擎關於 duplicate content 的懲罰,保證網站的排名不受影響。
robots.txt 帶來的風險及解決:
1. 凡事有利必有弊,robots.txt 同時也帶來了一定的風險:其也給攻擊者指明瞭網站的目錄結構和私密資料所在的位置。 雖然在 Web 服務器的安全措施配置得當的前提下這不是一個嚴重
的問題,但畢竟降低了那些不懷好意者的攻擊難度。
比如說,如果網站中的私密資料通過 HTTP://www.yueseo.com/SEO/20.html 訪問,那麼,在 robots.txt 的設置可能如下:
User-agent: *
Disallow: /SEO/
這樣,攻擊者只需看一下 robots.txt 即可知你要隱藏的內容在哪裡,在瀏覽器中輸入
HTTP://www.yueseo.com/SEO/ 便可訪問我們不欲公開的內容。 對這種情況,一般採取如下的辦法:
設置存取權限,對/private/中的內容實施密碼保護,這樣,攻擊者便無從進入。
另一種辦法是將缺省的目錄主檔案 index.html 更名為其他,比如說 abc-protect.html,這樣,該內容的位址即變成 HTTP://www.yueseo.com/SEO/ abc-protect.htm,同時,製作一個新的index.html 檔,內容大致為"你沒有許可權訪問此頁"之類,這樣,攻擊者因不知實際的檔案名而無法訪問私密內容。
2. 如果設置不對,將導致搜尋引擎將索引的資料全部刪除。
User-agent: *
Disallow: /
上述代碼將禁止所有的搜尋引擎索引資料。
文章出處:HTTP://www.yueseo.com/SEO/Robots.txt.html