大資料處理初窺

來源:互聯網
上載者:User

 當處理大規模資料時,例如進行全文檢索搜尋,近似重複項搜尋,資料採礦等工作時,RDBMS往往不能滿足我們的需求了。那麼我們應該怎麼做呢? 一種解決方案是:利用批處理從RDBMS中取出資料,建立索引伺服器再讓web應用程式通過RPC(Remote Procedure Call)或者web API(HTTP + JSON)進行查詢。

   我們稱上述方法為“特殊用途索引”。建立特殊索引後就能處理RDBMS難以處理的事情。RDBMS是通用系統,能夠進行資料排序、統計處理、JOIN等,其目的多種多樣,如果僅為了特定目的,那麼專門對資料結構進行調優,就會比RDBMS快得多。搜尋用的倒排索引就是最典型的例子,索引之前先進行自然語言處理方法處理,無須查詢RDBMS中全部資料,就能瞬間實現尋找。

特殊用途索引:

   定期取出資料

       根據取出的資料建立資料結構

           搜尋用的逆向索引

           關鍵字連結用的Trie等

   用C++開發儲存結構化資料的伺服器,通過RPC或者WEB API訪問。

   RDBMS->資訊搜尋

  • 用批處理獲得關係型資料庫中的資料

  • 建立倒排索引,使用搜尋演算法

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.