從IIS日誌出發:發現並解決收錄的幾個思路

來源:互聯網
上載者:User

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

網站的收錄一直是個大問題,那麼如何解決網站存在的收錄問題,首先就需要從根源找到原因所在,那就是IIS日誌。 IIS日誌是搜尋引擎爬行網站的一個記錄,通過它能清晰的看到蜘蛛爬行網頁的總時間,單頁時間,爬行深度,是否有多次重複抓取等,看到之後我們就需要對症下藥,從而從根本上解決網站收錄存在的問題。 好了,下邊從以下幾個方面做分析。

其一、過度抓取的URL問題

首先看下是否有過度抓取問題,這個很簡單,把IIS日誌用dw打開,然後複製一個URL查找全部就可以了,或者使用一些高級的IIS日誌分析工具也能直接看得到。 如果存在很多URL被蜘蛛訪問了多次,那麼很有可能是因為是首頁或者距離首頁點擊次數較近的頁面,一般的調整就是需要減少這些URL連結個數。 過度抓取的URL會浪費蜘蛛爬行的整個時間。

其二、是否存在重複內容

通過第一步之後,還能發現一個問題就是重複內容,如果有些URL被蜘蛛抓取了很多次,那麼有可能這是同一內容的不同URL,比如靜態的與動態的,比如一些B2C的排序頁面,這些功能性的頁面提供的內容都沒有過多差別, 但是URL可能不同。 要使用robots遮罩掉。

其三、蜘蛛沒爬行過的URL

這要借助于腳本實現,把你網站全部URL找出來,然後把蜘蛛爬行過的URL找出來,然後做對比,找出那些從來沒有被蜘蛛爬行過的URL,然後分析原因,是這些URL沒有連結、目錄過深還是URL參數過多的原因?確定原因之後改正, 日後繼續觀察收錄情況。

其四、整體內鏈結構如何

看你網站的整體內鏈結構,自己點擊測試,看首頁到內頁需要幾次點擊,如果你多次點擊才能到達一些內頁,那麼爬蟲從首頁到內頁也就需要更多的時間。 這樣自然就越浪費時間,所以調整內鏈結構,把更多的內容通過內鏈讓蜘蛛更好的爬取到。

其五、存取速度如何

存取速度是受多個方面的影響,要從伺服器到後臺再到前端仔細查看,是否還有優化的餘地。 在保證頁面效果的前提下,減少html代碼的整體體積。 將js和css單獨引入,html單獨存在,如果考慮的仔細,URL的靜態化就是必須的,因為過長的動態url也會影響到傳送速率等。

以上五點是根據自己的一些經驗與大家進行的總結,如果大家還有更多的方法發現並提高網站的收錄,歡迎分享多交流。 本文來自:痔瘡偏方,網址:HTTP://www.cqtaihai.com,轉載請保留連結,謝謝!

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.