大資料之三:幾個名詞

來源:互聯網
上載者:User

標籤:

Hadoop=HDFS+Hive+Pig+...

HDFS: 儲存系統
MapReduce:計算系統
Hive:提供給SQL開發人員(通過HiveQL)的MapReduce,基於Hadoop的資料倉儲架構
Pig:基於Hadoop的語言開發的
HBase:NoSQL資料庫
Flume:一個收集處理Hadoop資料的架構
Oozie:一個讓使用者以多種語言(如MapReduce,Pig和Hive)定義一系列作業的工作流程處理系統
Ambari:一個基於web的部署/管理/監控Hadoop叢集的工具集
Avro:允許編碼Hadoop檔案的schema的一種資料序列化系統
Mahout:一個資料採礦庫,它包含了最流行的一些資料挖據演算法,並且以MapReduce模型來實現他們
Sqoop:一個從非Hadoop資料存放區(如關聯式資料庫和資料倉儲)進來的移動資料到Hadoop中的串連工具
HCatalog:一個中心化的中繼資料管理以及Apache Hadoop共用服務,它允許在Hadoop叢集中的所有資料的統一視圖,並允許不同的工具,包括Pig和Hive,處理任何資料元素,而無需知道身體在叢集中的資料存放區。

BigTop:為了創造一個更正式的程式或架構Hadoop的子項目及相關組件的目標提高Hadoop的平台,作為一個整體的封裝和互通性測試。

Apache  Storm:一個分布式即時計算系統,Storm是一個任務並行連續計算引擎。 Storm本身並不典型在Hadoop叢集上運行,它使用Apache ZooKeeper的和自己的主/從工作進程,協調拓撲,主機和工作者狀態,保證資訊的語義。無論如何, Storm必定還是可以從HDFS檔案消費或者從檔案寫入到HDFS。

Apache Spark:一種快速,通用引擎用於大規模資料處理,Spark是一個資料並行通用批量處理引擎。工作流程中在一個類似的和懷舊風格的MapReduce中定義,但是,比傳統Hadoop MapReduce的更能幹。Apache Spark有其流API項目,該項目通過短間隔批次允許連續處理。Apache Spark本身並不需要Hadoop操作。但是,它的資料並行模式,需要穩定的資料最佳化使用共用檔案系統。該穩定源的範圍可以從S3,NFS或更典型地,HDFS。執行Spark應用程式並不需要Hadoop YARN。Spark有自己獨立的主/伺服器處理序。然而,這是共同的運行使用YARN容器Spark的應用程式。此外,Spark還可以在Mesos叢集上運行。

大資料之三:幾個名詞

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.