分析搜尋引擎收錄網頁的四個階段

來源:互聯網
上載者:User

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

作為SEO從業者,不僅要被搜尋引擎抓取,還要被收錄,最重要的是在收錄後有良好的排名,本文將簡單分析下搜尋引擎收錄網頁的四個階段。 每個網站、每個網頁的排名都是不一樣的,看看你的網站處於哪個階段呢?

  

網頁收錄第一階段:大小通吃

搜尋引擎的網頁抓取都是採取「 大小通吃」的策略,也就是把網頁中能發現的連結逐一加入到待抓取URL中,機械性的將新抓取的網頁中的URL提取出來,這種方式雖然比較古老,但效果很好,這就是為什麼很多站長反應蜘蛛來訪問了,但沒有收錄的原因,這僅僅是第一階段。

網頁收錄第二階段:網頁評級

而第二階段則是對網頁的重要性進行評級,PageRank是一種著名的連結分析演算法,可以用來衡量網頁的重要性,很自然的,站長可以用 PageRank的思路來對URL進行排序,這就是各位熱衷的「發外鏈」,據一位朋友瞭解,在中國「 發外鏈」這個市場每年有上億元的規模。

爬蟲的目的就是去下載網頁,但PageRank是個全域性演算法,也就是當所有網頁有下載完成後,其計算結果才是可靠的。 對於中小網站來講,伺服器如果品質不好,如果在抓取過程中,只看到部分內容,在抓取階段是無法獲得可靠的PageRank得分。

網頁收錄第三階段:OCIP策略

OCIP策略更像是PageRank演算法的改進。 在演算法開始之前,每個網頁都給予相同的「現金」,每當下載某個頁面A後,A將自己的「現金」平均分給頁面中包含的連結頁面,把自己的「現金」清空。 這就是為什麼匯出的連結越少,權重會越高的原因之一。

而對於待抓取的網頁,會根據手頭擁有的現金多少排序,優先下載現金最充裕的網頁,OCIP大致與PageRank思路一致,區別在於:PageRank每次要反覆運算計算,而OCIP則不需要,所以計算速度遠遠快于PageRank, 適合即時計算使用。 這可能就是為什麼很多網頁會出現「秒收」的情況了。

網頁收錄第四階段:大站優先策略

大站優先的思路很直接,以網站為單位來衡量網頁的重要性,對於待抓取的URL佇列中的網頁,根據所述網站歸類,如果哪個網站等待下載的頁面最多,則 優先下載這些連結。 其本質思想是「傾向于優先下載大型網站URL」。 因為大型網站往往包含更多的頁面。 鑒於大型網站往往是名站,其網頁品質一般較高,所以 這個思路雖然簡單,但有一定依據。

實驗表明這個演算法雖然簡單粗暴,但卻能收錄高品質網頁,很有效果。 這也是為什麼許多網站的內容被轉載後,大站卻能排到你前面的最重要原因之一。

文章來源:盧松松博客 原文位址:HTTP://lusongsong.com/reed/663.html

相關閱讀:

A5報名優惠:2013年GOMX全球網路行銷大會

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.