仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳
很早就答應給啊彬寫一篇文章的,感謝他對我的一個説明,但是一直到現在也沒有寫出來,前幾天看到卓少問了一個問題關於robots的問題,給大家整理了一下robots的一些情況。 robots.txt檔放在網站根目錄下,是搜尋引擎中訪問網站的時候要查看的第一個檔。 當一個搜索蜘蛛訪問一個網站時,它會首先檢查該網站根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該檔中的內容來確定訪問的範圍;如果該檔不存在,所有的搜索蜘蛛將能夠訪問網站上所有沒有被口令保護的頁面。 每個網站都應該有一個robots,它告訴搜尋引擎我的網站裡有哪些東西是不允許抓取的,有哪些頁面是歡迎爬行與抓取。
robots的幾種作用:
1.遮罩所有的搜尋引擎抓取資訊,如果你的網站只是你的私密性的網站,不想太多的人知道的話,可以利用robots遮罩掉所有的搜尋引擎,例如你寫的私人博客。 你就可以把搜尋引擎全都遮罩掉
User-agent: *
Disallow: /
2.如果你只想某一個搜尋引擎抓取你的資訊,這個時候就可以用robots進行設置,例如:我只想我的網站被百度這個收錄,而不想被別的搜尋引擎收錄。 就可以利用robots進行設置
User-agent: Baiduspider
Allow:
User-agent: *
Disallow: /
3.可以利用各種萬用字元對網站進行相對應的調配,例如我不想網站抓取我的所有圖片,這個時候就可以運用$來進行設置。 一般我們常見的圖片的格式是BMP、JPG、GIF、JPEG等格式。 這個時候設置就是:
User-agent: *
Disallow: /.bmp$
Disallow: /.jpg$
Disallow: /.gif$
Disallow: /.jpeg$
4.還可以利用*來遮罩掉相關的URL,有些網站不允許搜尋引擎抓取動態位址的時候可以利用這個*萬用字元來進行匹配設置。 一般情況下動態URL的有一個特點就是有「?」 這個時候我們就可以利用這個特性來進行匹配的遮罩:
User-agent: *
Disallow: /*?*
5.如果網站改版了,整個資料夾都沒有了的時候,這個情況下就要考慮遮罩掉整個資料夾。 我們可以運用robots來對這整個的資料夾進行遮罩,例如網站裡的ab資料夾因改版全都給刪掉了,這個時候就可以這樣子設置:
User-agent: *
Disallow: /ab/
6.如果網站裡有一個資料夾不想被收錄,但是在這個資料夾裡面有一個資訊是允許被收錄。 那可以運用robots的allow進行設置。 例如我網站裡ab資料夾不允許搜尋引擎抓取,但是在ab資料夾裡面又有一個資訊cd是允許被抓取的,這個時候就可以運用robots進行設置:
User-agent: *
Disallow: /ab/
Allow:/ab/cd
7.可以在robots裡定義出網站地圖的位置,有利於網站的收錄。
sitemap:<網站地圖的位置>
8.有的時候你會發現我的網站裡設置了robots但是還發現其收錄了這個URL位址,這個的原因是因為這個搜尋引擎的蜘蛛是通過URL爬行到網頁的一般 google抓取這樣子的URL的時候是不帶title與描述的, 但是百度抓取這個URL會帶上title與描述,所以有很多有人會說我設置了 robots但是沒有效果。 實際情況是抓取了這個連結而沒有收錄這個頁面內容。
網站的首頁權重是最高的,權重是靠連結傳遞的,我們設置robots是為了更好的把權重傳遞給那些需要有很高權重的頁面,而有一些頁面則是不需要搜尋引擎抓取和爬行的。