如何避免網站page的頁面被重複抓取

來源:互聯網
上載者:User

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

觀察分析網站的日誌,發現網站page的頁面被蜘蛛重複抓取很多,這樣子對網站的優化並不是很好。 那麼我們要如何避免網站頁面被蜘蛛重複的抓取呢?

一、通過robots檔來把這個頁面來遮罩掉,具體做法語法格式:

Disallow: /page/ #限制抓取Wordpress分頁如查你的網站有需要也可以把下面的語句一併寫上,避免出現過多的重複頁面。 * Disallow: /category/*/page/* #限制抓取分類的分頁 * Disallow:/tag/ #限制抓取標籤頁面 * Disallow: */trackback/ #限制抓取Trackback內容 * Disallow: /category/* #限制抓取所有分類清單 什麼是蜘蛛,也叫爬蟲,其實是一段程式。 這個程式的功能是,沿著你的網站的URL一層層的讀取一些資訊,做簡單處理後,然後返饋給後臺伺服器進行集中處理。 我們必需瞭解蜘蛛的喜好,對網站優化才能做到更好。 接下來我們談談蜘蛛的工作過程。

二、蜘蛛遇到動態頁面

蜘蛛在處理動態網頁資訊是面臨的難題。 動態網頁,是指由程式自動生成的頁面。 現在互聯網發達程式開發指令碼語言越來越多,自然開發出來的動態網頁類型也越來越多,如jsp、asp、php等等一些語言。 蜘蛛很難處理這些指令碼語言生成的網頁。 優化人員在優化的時候,總是強調儘量不要採用JS代碼,蜘蛛要完善處理這些語言,需要有自己的腳本程式。 在進行網站優化,減少一些不必要的腳本代碼,以便蜘蛛爬行抓取,少導致page頁面的重複抓取!

三、蜘蛛的時間

網站的內容經常變化的,不是更新就是改範本。 蜘蛛也是不斷地更新和抓取網頁的內容,蜘蛛的開發者會為爬蟲設定一個更新週期,讓其按照指定的時間去掃描網站,查看對比出哪些頁面是需要進行更新工作的,諸如:主頁的標題是否有更改,哪些頁面是網站新增頁面, 哪些頁面是已經過期失效的死連結等等。 一個功能強太的搜尋引擎的更新週期是不斷優化的,因為搜尋引擎的更新週期對搜尋引擎搜索的查全率有很大影響。 不過如果更新週期過長,便會使搜尋引擎的搜索精確性和完整性降低,會有一些新生成的網頁搜索不到;若更新週期太過於短,則技術實現難度加大,而且會對頻寬、伺服器的資源造成浪費。

四、蜘蛛不重複抓取策略

網站的網頁數量非常大,蜘蛛進行抓取是一個很大的工程,網頁的抓取需要費非常多線路頻寬、硬體資源、時間資源等等。 如果經常對同一個網頁重複抓取不但會大大的降低了系統的效率,還造成精確度不高等問題。 通常的搜尋引擎系統都設計了不重複進行網頁抓取的策略,這是為了保證在一定時間段內只對同一個網頁進行一次抓取。

關於如何避免網站page的頁面被重複抓取就介紹到這裡,文章由環球貿易網編輯。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.