全球100款大資料工具匯總(前50款)

來源:互聯網
上載者:User

標籤:相容   imp   機器   難度   套件   相容性   geo   suv   連續   

 

 

 

01  Talend Open Studio

 

是第一家針對的Data Integration工具市場的ETL(資料的提取Extract、傳輸Transform、載入Load)開源軟體供應商。Talend的下載量已超過200萬人次,其開源軟體提供了資料整合功能。其使用者包括美國國際集團(AIG)、康卡斯特、電子港灣、通用電氣、三星、Ticketmaster和韋裡遜等企業組織。

 

 

02 DYSON

 

探碼科技自主研發的DYSON智能分析系統,可以完整的實現大資料的採集、分析、處理。DYSON智能分析系統專業針對互連網資料抓取、處理、分析,挖掘。可以靈活迅速地抓取網頁上散亂分布的資訊,並通過強大的處理功能,準確挖掘出所需資料,是目前使用人數最多的網頁採集工具.

 

 

03 YARN

 

一種新的Hadoop資源管理員,它是一個通用資源管理系統,可為上層應用提供統一的資源管理和調度,解決了舊MapReduce架構的效能瓶頸。它的基本思想是把資源管理和作業調度/監控的功能分割到單獨的守護進程。

 

 

04 Mesos

 

由加州大學伯克利分校的AMPLab首先開發的一款開源群集管理軟體,支援Hadoop、Elasticsearch、Spark、Storm 和Kafka等架構。對資料中心而言它就像一個單一的資源集區,從物理或虛擬機器中抽離了CPU,記憶體,儲存以及其它計算資源, 很容易建立和有效運行具備容錯性和彈性的分布式系統。

 

 

05 Datale

 

由探碼科技研發的一款基於Hadoop的大資料平台開發套件,RAI大資料應用平台架構。

 

 

06 Ambari

 

作為Hadoop生態系統的一部分,提供了基於Web的直觀介面,可用於配置、管理和監控Hadoop叢集。目前已支援大多數Hadoop組件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。

 

 

07 ZooKeeper

 

一個分布式的應用程式協調服務,是Hadoop和Hbase的重要組件。它是一個為分布式應用提供一致性服務的工具,讓Hadoop叢集裡面的節點可以彼此協調。ZooKeeper現在已經成為了 Apache的頂級項目,為分布式系統提供了高效可靠且便於使用的協同服務。

 

 

08 Thrift

 

在2007年facebook提交Apache基金會將Thrift作為一個開源項目,對於當時的facebook來說創造thrift是為瞭解決facebook系統中各系統間大資料量的傳輸通訊以及系統之間語言環境不同需要跨平台的特性。

 

 

09 Chukwa

 

監測大型分布式系統的一個開來源資料採集系統,建立在HDFS/MapReduce架構之上並繼承了Hadoop的延展性和可靠性,可以收集來自大型分布式系統的資料,用於監控。它還包括靈活而強大的顯示工具用於監控、分析結果。

 

 

10 Lustre

 

一個大規模的、安全可靠的、具備高可用性的叢集檔案系統,它是由SUN公司開發和維護的。該項目主要的目的就是開發下一代的叢集檔案系統,目前可以支援超過10000個節點,數以PB的資料存放區量。

 

 

11 HDFS

 

Hadoop Distributed File System,簡稱HDFS,是一個Distributed File System。HDFS是一個高度容錯性的系統,適合部署在廉價的機器上。HDFS能提供高輸送量的資料訪問,非常適合大規模資料集上的應用。

 

 

12 GlusterFS

 

一個叢集的檔案系統,支援PB級的資料量。GlusterFS 通過RDMA和TCP/IP方式將分布到不同伺服器上的儲存空間彙集成一個大的網路化並行檔案系統。

 

 

13 Alluxio

 

前身是Tachyon,是以記憶體為中心的Distributed File System,擁有高效能和容錯能力,能夠為叢集架構(如Spark、MapReduce)提供可靠的記憶體級速度的檔案分享權限設定服務。

 

 

14 Ceph

 

新一代開源Distributed File System,主要目標是設計成基於POSIX的沒有單點故障的Distributed File System,提高資料的容錯性並實現無縫的複製。

 

 

15 PVFS

 

一個高效能、開源的並行檔案系統,主要用於並行計算環境中的應用。PVFS特別為超大數量的用戶端和伺服器端所設計,它的模組化設計結構可輕鬆的添加新的硬體和演算法支援。

 

 

16 QFS

 

Quantcast File System (QFS) 是一個高效能、容錯好、分布式的檔案系統,用於開發支援 MapReduce處理或者需要順序讀寫大檔案的應用。

 

 

17  Logstash

 

一個應用程式記錄檔、事件的傳輸、處理、管理和搜尋的平台。可以用它來統一對應用程式記錄檔進行收集管理,提供了Web介面用於查詢和統計。

 

 

18 Scribe

 

Scribe是Facebook開源的日誌收集系統,它能夠從各種日誌源上收集日誌,儲存到一個中央儲存系統(可以是NFS,Distributed File System等)上,以便於進行集中統計分析處理。

 

 

19 Flume

 

Cloudera提供的一個高可用的、高可靠的、分布式的海量日誌採集、彙總和傳輸的系統。Flume支援在日誌系統中定製各類資料發送方,用於收集資料。同時,Flume支援對資料進行簡單處理,並寫入各種資料接受方(可定製)。

 

 

20 RabbitMQ

 

一個受歡迎的訊息代理系統,通常用於應用程式之間或者程式的不同組件之間通過訊息來進行整合。RabbitMQ提供可靠的應用訊息發送、便於使用、支援所有主流作業系統、支援大量開發人員平台。

 

 

21 ActiveMQ

 

Apache出品,號稱“最流行的,最強大”的開源訊息整合模式伺服器。ActiveMQ特點是速度快,支援多種跨語言的用戶端和協議,其企業整合模式和許多先進的功能便於使用,是一個完全支援JMS1.1和J2EE 1.4規範的JMS Provider實現。

 

 

22 Kafka

 

一種高輸送量的分布式發布訂閱訊息系統,它可以處理消費者規模網站中的所有動作流資料,目前已成為大資料系統在非同步和分布式訊息之間的最佳選擇。

 

 

23 Spark

 

一個高速、通用大資料計算處理引擎。擁有Hadoop MapReduce所具有的優點,但不同的是Job的中間輸出結果可以儲存在記憶體中,從而不再需要讀寫HDFS,因此Spark能更好地適用於資料採礦與機器學習等需要迭代的MapReduce的演算法。它可以與Hadoop和Apache Mesos一起使用,也可以獨立使用。

 

 

24 Kinesis

 

可以構建用於處理或分析流資料的自訂應用程式,來滿足特定需求。Amazon Kinesis Streams 每小時可從數十萬種來源中連續捕獲和儲存數TB資料,如網網站擊流、財務交易、社交媒體源、IT日誌和定位追蹤事件。

 

 

25  Hadoop

 

一個開源架構,適合運行在通用硬體,支援用簡單程式模型分散式處理跨叢集大資料集,支援從單一伺服器到上千伺服器的水平scale up。Apache的Hadoop項目已幾乎與大資料划上了等號,它不斷壯大起來,已成為一個完整的生態系統,擁有眾多開源工具面向高度擴充的分散式運算。高效、可靠、可伸縮,能夠為你的資料存放區項目提供所需的YARN、HDFS和基礎架構,並且運行主要的巨量資料服務和應用程式。

 

 

 

26 Spark Streaming

 

實現微批處理,目標是很方便的建立可擴充、容錯的流應用,支援Java、Scala和Python,和Spark無縫整合。Spark Streaming可以讀取資料HDFS,Flume,Kafka,Twitter和ZeroMQ,也可以讀取自訂資料。

 

 

27 Trident

 

是對Storm的更高一層的抽象,除了提供一套簡單易用的流資料處理API之外,它以batch(一組tuples)為單位進行處理,這樣一來,可以使得一些處理更簡單和高效。

 

 

28 Flink

 

於今年躋身Apache頂級開源項目,與HDFS完全相容。Flink提供了基於Java和Scala的API,是一個高效、分布式的通用大資料分析引擎。更主要的是,Flink支援增量迭代計算,使得系統可以快速地處理資料密集型、迭代的任務。

 

 

29 Samza

 

出自於LinkedIn,構建在Kafka之上的分布式StreamCompute架構,是Apache頂級開源項目。可直接利用Kafka和Hadoop YARN提供容錯、進程隔離以及安全、資源管理。

 

 

30 Storm

 

Storm是Twitter開源的一個類似於Hadoop的即時資料處理架構。編程模型簡單,顯著地降低了即時處理的難度,也是當下最人氣的StreamCompute架構之一。與其他計算架構相比,Storm最大的優點是毫秒級低延時。

 

 

31 Yahoo S4 (Simple Scalable Streaming System)

 

是一個分布式StreamCompute平台,具備通用、分布式、可擴充的、容錯、可插拔等特點,程式員可以很容易地開發處理連續無邊界資料流(continuous unbounded streams of data)的應用。它的目標是填補複雜專有系統和面向批處理開源產品之間的空白,並提供高效能運算平台來解決並發處理系統的複雜度。

 

 

32 HaLoop

 

是一個Hadoop MapReduce架構的修改版本,其目標是為了高效支援 迭代,遞迴資料 分析任務,如PageRank,HITs,K-means,sssp等。

 

 

33 Presto

 

是一個開源的分布式SQL查詢引擎,適用於互動式分析查詢,可對250PB以上的資料進行快速地互動式分析。Presto的設計和編寫是為瞭解決像Facebook這樣規模的商業資料倉儲的互動式分析和處理速度的問題。Facebook稱Presto的效能比諸如Hive和MapReduce要好上10倍有多。

 

 

34 Drill

 

於2012年8月份由Apache推出,讓使用者可以使用基於SQL的查詢,查詢Hadoop、NoSQL資料庫和雲端儲存體服務。它能夠運行在上千個節點的伺服器叢集上,且能在幾秒內處理PB級或者萬億條的資料記錄。它可用於資料採礦和即席查詢,支援一系列廣泛的資料庫,包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亞馬遜S3、Azure Blob Storage、Google雲端儲存和Swift。

 

 

35 Phoenix

 

是一個Java中介層,可以讓開發人員在Apache HBase上執行SQL查詢。Phoenix完全使用Java編寫,並且提供了一個用戶端可嵌入的JDBC驅動。Phoenix查詢引擎會將SQL查詢轉換為一個或多個HBase scan,並編排執行以產生標準的JDBC結果集。

 

 

36 Pig

 

是一種程式設計語言,它簡化了Hadoop常見的工作任務。Pig可載入資料、轉換資料以及儲存最終結果。Pig最大的作用就是為MapReduce架構實現了一套shell指令碼 ,類似我們通常熟悉的SQL語句。

 

 

37 Hive

 

是基於Hadoop的一個資料倉儲工具,可以將結構化的資料檔案映射為一張資料庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行運行。 其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合資料倉儲的統計分析。

 

 

38 SparkSQL

 

前身是Shark,SparkSQL拋棄原有Shark的代碼並汲取了一些優點,如記憶體列儲存(In-Memory Columnar Storage)、Hive相容性等。由於擺脫了對Hive的依賴性,SparkSQL無論在資料相容、效能最佳化、組件擴充方面都得到了極大的方便。

 

 

39 Stinger

 

原來叫Tez,是下一代Hive,由Hortonworks主導開發,運行在YARN上的DAG計算架構。某些測試下,Stinger能提升10倍左右的效能,同時會讓Hive支援更多的SQL。

 

 

40 Tajo

 

目的是在HDFS之上構建一個可靠的、支援關係型資料的分布式資料倉儲系統,它的重點是提供低延遲、可擴充的ad-hoc查詢和線上資料聚集,以及為更傳統的ETL提供工具。

 

 

41 Impala

 

Cloudera 聲稱,基於SQL的Impala資料庫是“面向Apache Hadoop的領先的開源分析資料庫”。它可以作為一款獨立產品來下載,又是Cloudera的商業巨量資料產品的一部分。Cloudera Impala 可以直接為儲存在HDFS或HBase中的Hadoop資料提供快速、互動SQL查詢。

 

 

42  Elasticsearch

 

是一個基於Lucene的搜尋伺服器。它提供了一個分布式、支援多使用者的全文檢索搜尋引擎,基於RESTful web介面。Elasticsearch是用Java開發的,並作為Apache授權條款下的開放源碼發布,是當前流行的企業級搜尋引擎。設計用於雲端運算中,能夠達到即時搜尋、穩定、可靠、快速、安裝使用方便。

 

 

43 Solr

 

基於Apache Lucene,是一種高度可靠、高度擴充的企業搜尋平台。知名使用者包括eHarmony、西爾斯、StubHub、Zappos、百思買、AT&T、Instagram、Netflix、彭博社和Travelocity。

 

 

44 Shark

 

即Hive on Spark,本質上是通過Hive的HQL解析,把HQL翻譯成Spark上的RDD操作,然後通過Hive的metadata擷取資料庫裡的表資訊,實際HDFS上的資料和檔案,會由Shark擷取並放到Spark上運算。Shark的特點就是快,完全相容Hive,且可以在shell模式下使用rdd2sql()這樣的API,把HQL得到的結果集,繼續在scala環境下運算,支援自己編寫簡單的機器學習或簡單分析處理函數,對HQL結果進一步分析計算。

 

 

45 Lucene

 

基於Java的Lucene可以非常迅速地執行全文檢索搜尋。據官方網站聲稱,它在現代硬體上每小時能夠檢索超過150GB的資料,它擁有強大而高效的搜尋演算法。

 

 

46 Terracotta

 

聲稱其BigMemory技術是“世界上首屈一指的記憶體中資料管理平台”,支援簡單、可擴充、即時訊息,聲稱在190個國家擁有210萬開發人員,全球1000家企業部署了其軟體。

 

 

47  Ignite

 

是一種高效能、整合式、分布式的記憶體中平台,可用於對大規模資料集執行即時計算和處理,速度比傳統的基於磁碟的技術或快閃記憶體技術高出好幾個數量級。該平台包括資料格、計算網格、服務網格、流媒體、Hadoop加速、進階叢集、檔案系統、訊息傳遞、事件和資料結構等功能。

 

 

48 GemFire

 

Pivotal宣布它將開放其大資料套件關鍵組件的原始碼,其中包括GemFire記憶體中NoSQL資料庫。它已向Apache軟體基金會遞交了一項提案,以便在“Geode”的名下管理GemFire資料庫的核心引擎。

 

 

49  GridGain

 

由Apache Ignite驅動的GridGrain提供記憶體中資料結構,用於迅速處理大資料,還提供基於同一技術的Hadoop加速器。

 

 

50 MongoDB

 

是一個基於分布式檔案儲存體的資料庫。由C++語言編寫。旨在為web應用提供可擴充的高效能資料儲存解決方案。介於關聯式資料庫和非關聯式資料庫之間的開源產品,是非關聯式資料庫當中功能最豐富、最像關聯式資料庫的產品。

 

 

來源:艾斯尼勒

 

近期精彩活動(直接點擊查看):

全球100款大資料工具匯總(前50款)

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.