兩大搜尋引擎的網頁收錄習慣

來源:互聯網
上載者:User

仲介交易 SEO診斷 淘寶客 雲主機 技術大廳

Google作為全球最大的多語言搜尋引擎在發展歷史過程中形成了自己的網頁收錄習慣,也建立起自己的一套標準。 研究Goolge收錄網頁的習慣有利於更好迎合Google搜尋引擎的口味,達到提高網頁收錄量和收錄排名的目的。

我們暫且不研究Google對其他語言的收錄,就漢語而言,Google收錄有以下特點:

1、敏感度較高,反應較快

Goole對新建的網站具有較高的查知性,當然,新建的網站必須要有外部連結或者向Google遞交過網站登錄資訊。 否則,即使Google的搜索技術再厲害,一個只有站長一個人看得見的網站是很難被Google發現的。 Google收錄新建網站的兩個途徑是:第一,通過網站的外部連結;第二,通過向Google提交網站登錄資料。 一般而言,後者的收錄速度相對較快,而前者則要視Google對新建網站的外部連結網站的收錄頻率而定。 如果Google對外部連結網站的評價高、收錄頻率高那麼其發現新站的速度也相應地高,新建網站被收錄的日期就會被提前。

2、並重相關性和重要性

Google 使用 PageRank 技術檢查整個網路連結結構,並確定哪些網頁重要性最高。 然後進行超文字匹配分析,以確定哪些網頁與正在執行的特定搜索相關。 在綜合考慮整體重要性以及與特定查詢的相關性之後,Google 才將最相關最可靠的搜尋結果放在首位。 這也是Google收錄網頁的特點之一。

3、變化較快、機動性較高

Google 漫遊器會定期抓取 Web,將大量網頁列入索引。 稍後完成的下一次抓取會注意到新網站、對現有網站的更改以及失效的連結,並對內容的變化在搜尋結果中加以調整。

4、較重視連結的文字描述

Google會將連結的文字描述作為關鍵字加以索引,所以我們在作友情連結時千萬要仔細設計連結的文字描述,使之既符合網站的定位又不失相關性,以此博得Google的信任。

5、較重視網頁標記的描述

大多數時候Google顯示搜尋結果時會把網頁的Deion顯示出來,並佔有較重的篇幅。

Google使用的技術: PageRank 技術:PageRank 能夠對網頁的重要性做出客觀的評價。 PageRank 並不計算直接連結的數量,而是將從網頁 A 指向網頁 B 的連結解釋為由網頁 A 對網頁 B 所投的一票。 這樣,PageRank 會根據網頁 B 所收到的投票數量來評估該頁的重要性。

超文字匹配分析:Google 的搜尋引擎同時也分析網頁內容。 然而,Google 的技術並不採用單純掃描基於網頁的文本(網站發佈商可以通過元標記控制這類文本)的方式,而是分析網頁的全部內容以及字體、分區及每個文字精確位置等因素。 Google 同時還會分析相鄰網頁的內容,以確保返回與使用者查詢最相關的結果。

百度搜尋引擎收錄習慣

百度是全球最大的中文搜尋引擎,對中文網頁的搜索技術在某種程度上領先于Google,百度在某些方面與Google有相同或相似之處外它還有以下特點:

1、較重視第一次收錄印象

網站給百度的第一印象比較重要,相對Google而言,百度搜尋引擎的人為參與度較高,也就是說在某些層面上可能由人來決定是否收錄網頁而不是由機器來決定。 所以,網站在登錄百度搜尋引擎之前最好把內容做得豐富點、原創內容多一點、網頁關鍵字與內容的相關度高一點,這樣才能給百度較好的初次印象。

2、對網頁的更新較敏感

百度對網頁的更新相對Google而言更加敏感,可能這與百度的本土性格有關。 百度搜尋引擎每週更新,網頁視重要性有不同的更新率,頻率在幾天至一月之間。 所以在百度的搜尋結果中基本上都標明瞭收錄時間。

3、較重視首頁

百度對首頁的重視程度要比Google高得多,這與上面提到的「較重視第一次收錄印象」一脈相承。 百度在顯示搜尋結果時也常常把網站首頁顯示出來,而不具體到某個內容頁(當其認為不夠重要時)。 相對而言,其使用者體驗打了折扣,而增加了其「百度快照」的使用者量。 象熱血超輔(HTTP://www.rxzhifu.com) 就是個例子,大家可以參考下。

4、較重視絕對位址的連結

百度在收錄網頁時比較重視絕對位址的收錄,百度提供的網頁快照功能也沒有解析相對位址的絕對路徑,不知這是百度技術的疏忽還是其偏好的一大體現。

5、較重視收錄日期

百度對網頁的收錄日期非常看重,也是其搜尋結果排名的參考點,被收錄得越早排名會較高,有時甚至不考慮相關性地把它認為比較重要的內容放在首位,而點擊進入之後才發現是早已過時的資訊或者垃圾資訊。 這是百度需要改進的技術。 一般情況下,象HTTP://www.wowbigfoot.org.cn 這個站就是收錄了內頁。

百度使用的技術: 百度使用以下技術:「一種互聯網上鏡像和准鏡像網站的識別方法」,這個方法解決了搜尋引擎對雷同資訊的重複獲取,節省網路資源和本地資源,提高系統服務的品質和效率;「 一種基於詞彙的電腦索引和檢索方法」,該方法對一段連續的文字資訊,經過詞彙分析處理後,通過添加隱形詞彙的手段,實現對基於詞彙索引和檢索系統的檢索品質提升,使使用者獲得更加準確的檢索結果;「 一種使用快照的方式實現對網上資訊進行記錄和分析的方法」,該方法是通過對互聯網上一個特定資訊,多次進行快照的方式,將資訊當時的狀態進行保留。 並通過對一系列快照資訊的分析,得到有效資料,方便地得到網上資訊的變動情況。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.