淺談搜尋引擎所面臨的挑戰有哪些

來源:互聯網
上載者:User

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

1、 頁面抓取需要快而全面

我們知道,互聯網是一個動態的內容更新,每天都會有很多人在互聯網上發佈新內容,或者更新老內容,搜尋引擎就是要從這些海量的資訊中抓取最符合使用者搜索意圖的網頁,面對已經存在的海量資訊而且每秒鐘還在幾何級增長的資訊量, 搜尋引擎的工作量是非常大的,搜尋引擎程式每更新一次程式要花許多時間的,特別是在剛誕生的時候,更新的週期8630.html">有時候竟然能達到幾個月更新一次,試想一下,在幾月內又會有多少網頁更新和新產生了呢? 這樣的搜尋結果往往是滯後的。

要想返回最好的搜尋結果,搜索蜘蛛必須抓取儘量比較全面的網頁,這就需要搜尋引擎解決許多技術上的問題。 也是它面臨的主要挑戰。

2、 海量存儲資料

互聯網上的資訊是巨大的,大的幾乎你不能想像,而且每天還會有許多新的資訊產生,搜尋引擎再抓取了這些頁面後,還必須以一定的資料格式存儲起來,資料結構要求合理,而且要具備非常高的擴充性。 資料寫入速度要很快,訪問的速度也經足夠快。

搜尋引擎除了要存儲大量的頁面本身資訊外,為了更好的進行索引及排序,還必須要存儲頁面與頁面之間的連結關係,頁面的歷史資料,以及許多索引資訊。 這些資料量都是非常巨大的。 這樣大規模的資料存儲和讀取肯定存在很多技術方面的挑戰。

3、 索引處理快速有效,而且要有可擴充性

搜尋引擎將頁面資料抓取和存儲後,還要進行許多頁面的索引處理。 例如頁面之間連結關係的計算,正向索引、反向索引等。 例如還有谷歌的PR計算等,搜尋引擎必須進行大量的索引工作才能快速的返回搜尋結果,而且進行索引的過程中,還有大量的新頁面在產生,搜尋引擎的索引處理常式還要有比較好的擴充性。

4、 查詢處理快速準確

  前邊那幾步都是在搜尋引擎的幕後程式運行的,而查詢階段是使用者能夠看到結果的一個步驟。 我們在搜尋引擎的搜索框中輸入關鍵字點擊搜索後,往往不到一秒鐘時間搜尋引擎就能夠返回結果給我們,雖然表面看起來簡單,可是對於搜尋引擎來說,卻是一個非常複雜的過程。 裡邊牽涉很多演算法。 它需要在不到一秒的時間內快速從符合基本條件的網頁中找到合理的頁面,排名在搜尋引擎的前邊。 我們知道,百度是最多我們可以看到76頁的結果,谷歌要多一點,可以看到最多100頁的結果。 文章來源:HTTP://www.suptb.cn/轉載請注明出處,謝謝

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.