International - English

Cart Console

Topic Center

Contact Sales

首頁 > 開發者 > 數據庫管理員

Cassandra叢集資料初始化的實現步驟

最後更新：2013-12-15 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

一個Cassandra叢集需要投入時候，絕大多數時候都是會有初始化資料的，比如部落格網站中所有的部落格資料，資料分析網站中所有的網頁資訊，電子商務網站中所有的商品資訊等等。這些初始化資料往往量的都非常大，不適用直接使用Thrift API的方式談談Cassandra的用戶端）直接匯入。Facebook曾經使用了叫做BinaryMemTable的方式匯入使用Binary Memtable將大量資料匯入Cassandra）。

我們在叢集中安裝Hadoop和Cassandra，假設我們需要初始化的資料可以匯入成一個一般檔案txt檔案），然後上傳到HDFS中。其中每一台機器既是Cassandra的節點也是Hadoop的Slave機器，並且每一台Slave機器的Reduce的個數為1。

為了將大量的資料匯入到叢集中，我個人認為有如下2中方案。

使用BinaryMemTable

1.運行MapReduceJob

在Mapper中按照Key對匯入的資料進行分區。

在Reducer中，configure階段進行以下操作：

1. 初始化Cassandra的Message Service和Gossip服務。

2. 建立Cassandra的檔案目錄。

3. 關閉Cassandra的壓縮功能。

4. 等待一個Range的delay時間。

在Reducer中，reduce階段進行以下操作：

1. 根據每一個key建立其對應的ColumnFamily

2. 建立RowMutation的訊息

3. 將訊息發送到叢集中所有應該獲得該資料的節點中。

在Reducer中，close階段進行以下操作：

1. 等待Message Service中所有的訊息發送完畢。

2. 完畢Cassandra的Message Service和Gossip服務。

2.啟動Cassandra叢集

在Cassandra啟動後，手動執行壓縮操作，合并之前產生的大量的SSTable檔案。

自己產生SSTable檔案

1.啟動Cassandra叢集

啟動後，確保整個叢集的ring已經建立起來。

2.運行MapReduceJob

在Mapper中，configure階段進行以下操作：

1. 隨機串連一台Cassandra機器

2. 擷取Cassandra叢集的token map

在Mapper中，map階段進行以下操作：

1. 根據資料的key對應的節點地址劃分資料

二次排序

1. 將節點地址和key相應的資料作為一個Group

2. Group中的資料按照key的升序排序

在Reducer中，configure階段進行以下操作：

1. 為每一個ColumnFamily建立一個SStableWriter執行個體。

在Reducer中，reduce階段進行以下操作：

1. 根據每一個key建立其對應的ColumnFamily

2. 調用相應的SStableWriter.append()方法，將資料寫入到指定的SStable檔案中。

在Reducer中，close階段進行以下操作：

1. 調用每一個ColumnFamily的SStableWriter.closeAndOpenReader()方法。

2. 將產生的SSTable檔案SCP到應該屬於的Cassandra的data目錄中。

3.重新啟動Cassandra叢集

原文標題：Cassandra叢集資料初始化方案的構想

連結：http://www.cnblogs.com/gpcuster/archive/2010/07/03/1770452.html

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

相關關鍵詞：

ORA-01658: 無法為資料表空間space中的段建立 INITIAL 區 05-10

Oracle ORA-02020 : 過多的資料庫連結在使用中解決步驟 01-08

ORA-12170 TNS 連線逾時解決方案 07-18

ORA-24247: 網路訪問被存取控制清單 (ACL) 拒絕，ora-24247acl 08-29

sql資料庫還原，出現媒體家族的結構不正確，SQL Server無法處理此媒體家族的解決方案之一。，sqlserver 07-10

聯繫我們

該頁面正文內容均來源於網絡整理，並不代表阿里雲官方的觀點，該頁面所提到的產品和服務也與阿里云無關，如果該頁面內容對您造成了困擾，歡迎寫郵件給我們，收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容，歡迎發送郵件至： info-contact@alibabacloud.com 進行舉報並提供相關證據，工作人員會在 5 個工作天內聯絡您，一經查實，本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

Cassandra叢集資料初始化的實現步驟

聯繫我們

熱門內容

熱門主題

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support