大資料讀書筆記(1)

來源:互聯網
上載者:User

標籤:

1. 資料分區與路由

   抽象模型為兩級映射關係,第一級映射是key-partition映射,第二級映射是partition-machine映射。

     資料分區有雜湊分區和範圍分區:

  雜湊分區只支援點查詢,如cassandra,voltmort,membase;

  範圍分區支援範圍查詢,google的bigtable 和ms的azure;

  同時支援兩種的yahoo的pnuts。

2.雜湊分區時進行資料分區的常見手段,其中最常見的3中雜湊分區方式分表是:輪詢、虛擬桶、一致雜湊方法

  2.1 輪詢也稱雜湊模數方法

               H(key)=hash(key)modK

  優點:實現簡單

  缺點:缺乏靈活性,如新增或者減少一台物理機時需要重新hash

     原因:將key-partition映射和partition-machine映射合二為一了,兩部分都由同一雜湊函數完成,導致了機器和映射函數的緊耦合。

2.2 虛擬桶

      

key-partition映射採用雜湊函數,partition-machine採用表格管理實現。

2.3 一致性雜湊

  分布式雜湊表DHT(distributed hash table)

                  

3. 範圍分區

     首先將所有記錄的主鍵進行排序,然後在排好序的主鍵空間裡將記錄劃分成資料分區,每個資料分區儲存有序的主鍵空間片段內的所有記錄。

資料分區在物理機的管理方式往往採用LSM樹。

    

 

參考文獻:

【1】http://blog.csdn.net/gdhuyufei/article/details/42101231

 

大資料讀書筆記(1)

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.