標籤:中小企業 大資料 技術路線
中小企業的大資料技術路線選擇
目前,大資料主要應用在互連網、電商領域,電信、電力行業也在逐步使用。對廣大的中小企業來說,大資料也聽得太多了。然而,大資料的技術門檻還是很高的。從技術路線上來說,選擇大公司使用的技術方案可能是不能承受之重。
筆者所在的公司,選擇的是行業通用的Hadoop方案。曆經一年之久,前後三撥人員,一個Demo版還沒出來。大資料真的讓人望眼欲穿啊。
對中小企業而言,要選擇適合自己的大資料技術路線。跟著大公司,人云亦云,還真玩不起。那麼,有沒有適合中小企業的大資料方案呢?筆者用心收集了幾個,供參考。 1、Cassandra+Presto Cassandra是一套開源分布式NoSQL資料庫系統。它最初由Facebook開發,用於儲存收件匣等簡單格式資料,集GoogleBigTable的資料模型與AmazonDynamo的完全分布式的架構於一身Facebook於2008將 Cassandra 開源,此後,由於Cassandra良好的可擴放性,被Digg、Twitter等知名Web 2.0網站所採納,成為了一種流行的分布式結構化資料存放區方案。 Cassandra主要特性:
Cassandra提供了以下功能:
- 模式靈活
- 可擴充性
- 多資料中心
- 範圍查詢
- 列表資料結構
- 分布式寫操作
- 一致性Hash
- GoSSIP協議簡化叢集管理
- 即時更新
- 高效的二級索引
- 高效的資料壓縮
Presto是一個用Java語言開發的、開源的“互動式”SQL查詢引擎。它由Facebook構建,即Hive最初的建立者。Presto採用的方法類似於Impala,即提供互動式體驗的同時依然使用已有的儲存在Hadoop上的資料集。它也需要安裝在許多“節點”上,類似於Impala。Presto提供了以下功能:
- ANSI-SQL文法支援 (可能是ANSI-92)
- JDBC 驅動
- 一個用於從已有資料來源中讀取資料的“連接器”集合。連接器包括:HDFS、Hive和Cassandra
- 與Hive metastore互動以實現模式共用
Presto/Cassandra的整合: Ad-hoc analysis over Cassandra data with Facebook Presto http://blog.csdn.net/china_world/article/details/39966699 2、Trafodion:Transactional SQL on HBase Trafodion是由惠普贊助的一個開源項目,培養在惠普實驗室和HP-IT開發一個企業級的SQL上的HBase解決方案,針對大資料的事務或業務工作負載。Trafodion是在Apache許可證授權,版本2.0。Trafodion建立在可擴充性,彈性和Hadoop的靈活性上。Trafodion Hadoop的擴充提供保證事務的完整性,使各種新的大資料應用在Hadoop上運行。
Key Features of Trafodion
- Full-functioned ANSI SQL language support
- JDBC/ODBC connectivity for Linux/Windows clients
- ACID distributed transaction protection across multiple statements, tables and rows
- Performance improvements for OLTP workloads with compile-time and run-time optimizations
- Support for large data sets using a parallel-aware query optimizer
|
Key Benefits of Trafodion
- Reuse existing SQL skills and improve developer productivity
- Distributed ACID transactions guarantee data consistency across multiple rows and tables
- Interoperability with existing tools and applications
- Hadoop and Linux distribution neutral
- Easy to add to your existing Hadoop infrastructure
|
中小企業的大資料技術路線選擇