搜尋引擎中關於蜘蛛的設計分析

來源:互聯網
上載者:User

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

說的簡單易懂一些,網路爬蟲跟你使用的〖離線閱讀〗工具差不多。

1.url 的遍歷和紀錄

2.多進程 VS 多執行緒

3.時間更新控制

4.爬的深度

5.爬蟲一般不直接爬對方的網頁,一般是通過一個Proxy出去,這個proxy有緩解壓力的功能,因為當對方的網頁沒有更新的時候,只要拿到 header 的 tag就可以了,沒有必要全部傳輸一次了,可以大大節約網路頻寬。

6.請有空的時候照看一下robots.txt

7.存儲結構。

網頁更新頻度嚴重影響著搜尋引擎蜘蛛程度對網站的爬行,爬取次數越多意味著網頁收錄幾率會越大、收錄數量越多,收錄是SEO最基礎的一個環節。

儘量將網站保持在三級目錄內,深層次的網頁會給搜尋引擎帶來很大的壓力,當然,我想Google有足夠的伺服器來承擔這些壓力,但從側面來說,3層目錄下的網頁被抓取及更新的頻度要低很多。 前面,我說過,要想辦法使網站物理結構和邏輯結構吻合,這體現于URL的良好設計,現在你可以檢查下前臺生成的靜態網頁的實際目錄有幾層,考慮是否可以優化。

本文轉載自:duocaigu.com,轉載請保留出處,請尊重版權!

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.