吳賢茂:robots.txt與sitemap的運用

來源:互聯網
上載者:User

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

首先我先講解一下什麼是robots.txt,robots.txt是搜尋引擎中訪問網站的時候要查看的第一個檔。 Robots.txt檔告訴編目程式在伺服器上什麼檔是可以被查看的。 當一個搜索蜘蛛訪問一個網站時,它會首先檢查該網站根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該檔中的內容來確定訪問的範圍;如果該檔不存在,所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。

然而很多人都知道有robots這回事,卻不知道應該如何下手,今天我說下如何來寫robots.txt 首先你要想一下那些網站目錄是不想被搜索蜘蛛給抓取的,哪些是需要被抓取的,這個很重要, 如果亂寫robots有可能會把遮罩網站給搜尋引擎收錄的。

robots.txt檔一定要寫在網站的根目錄上面,例如:

www.***com/robots.txt

而不能這樣

www.***.com/seo/robots.txt

記得一定要在根目錄就對了,然後裡面的寫法有兩條

User-Agent: 適用下列規則的漫遊器

Disallow: 要攔截的網頁

User-Agent: Googlebot(baiduspider)這個就是谷歌(百度)的蜘蛛

Disallow: /seo

這樣寫的意思就是說我不想google或者百度的蜘蛛來抓取我seo這個資料夾裡面的東西,*的話就代表全部。 如果你建立一個空的或者不建立robots的話,該網站的全部內容都會搜尋引擎所收錄,然後很多人就會問了,網站不是被收錄的越多越好嗎?

我就打個比方吧,你的網站生成靜態,然而之前的動態又還在,蜘蛛就是抓取兩個同時收錄,然後搜尋引擎就會認為兩個標題相同的文章出現在同一網站的話就會認為你是在作弊了,有可能會被降權。

sitemap(網站地圖)

主要是因為很多網站的內容都沒有其他連結,為了把這些連結更好的連接起來,讓蜘蛛能抓取更多的資源。 如果是谷歌的話,大家可以註冊個管理員工具,生成的XML檔自己提交給谷歌,百度沒有管理員工具的話就可以通過在robots.txt裡面寫Sitemap

寫法如下:

Sitemap:HTTP://www.***.com/sitemap.xml

Sitemap:HTTP://www.***.com/sitemap.txt

Sitemap:HTTP://www.***.com/sitemap.html

這三種形式都可以,一般自動都會生成xml,如果不會生成sitemap可以去網上找下工具或者使用一些開源的cms都會有自帶的!本文由www.ainatec.com站長供稿!

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.