標籤:活躍 管理系 互動 訊息系統 快速 products rest 項目 com
最近我問了很多Java開發人員關於最近12個月內他們使用的是什麼大資料工具。
這是一個系列,主題為:
- 語言
- web架構
- 應用伺服器
- SQL資料存取工具
- SQL資料庫
- 大資料
- 構建工具
- 雲供應商
今天我們就要說說大資料。根據維基百科,大資料是資料集的一個廣義的術語,並且該資料集是如此龐大和複雜,以致於傳統的資料處理應用程式無法勝任。
在許多情況下,使用SQL資料庫用於儲存/檢索資料就足夠了。但在另一些情況下,要麼SQL資料庫規模不夠,要麼還有更好的工具。這一切都取決於使用方式。
現在讓我們來討論一下儲存/處理資料用的不同的非SQL工具——NoSQL資料庫,記憶體緩衝,全文檢索搜尋引擎,即時資料流,圖形資料庫,等等。
MongoDB—— 一種流行的,跨平台的面向文檔的資料庫。
Elasticsearch——專為雲而構建的分布式REST風格搜尋引擎。
Cassandra——一個開源的分散式資料庫管理系統,最初由Facebook開發,被設計用來處理橫跨多個商用伺服器的大量資料,提供了無單點故障的高度可用性。
Redis—— 一個開源的(BSD許可),記憶體資料結構儲存,作為資料庫、緩衝和訊息代理使用。
Hazelcast——基於Java的開源記憶體資料格。
EHCache——一種被廣泛使用的開源Java分布式緩衝,用於通用緩衝、Java EE和輕量級容器。Ehcache相關介紹
Hadoop——用Java編寫的一個開源軟體架構,用於分布式儲存和對在電腦叢集上的超大型資料集的分散式處理。
Solr——一個開源的企業搜尋平台,用Java編寫的,來自於Apache Lucene項目。
Spark——Apache Software Foundation中最活躍的項目,一個開源的叢集計算架構。
Memcached—— 一個通用的分布式記憶體緩衝系統。
Apache Hive——提供了Hadoop之上類似於SQL的層。
Apache Kafka—— 一個高通量、分布式的發布-訂閱式訊息系統,最初開發在LinkedIn上。Windows上脫離Cygwin運行Apache Kafka
Akka—— 一個工具包和運行時,用於在JVM上構建高度並行的、分布式的、有彈性的訊息驅動的應用程式。
HBase—— 一個開源的,非關係型的,分散式資料庫,在Google的BigTable後建模,用Java編寫,並運行在HDFS上。
Neo4j——用Java實現的開源圖形資料庫。
CouchBase——一個開源的、面向文檔的分布式NoSQL資料庫,特別為了互動式應用而最佳化。
Apache Storm——開源的分布式即時計算系統。
CouchDB——使用JSON來儲存資料的面向文檔的開源NoSQL資料庫。
Oracle Coherence—— 一個記憶體的資料格解決方案,通過提供快速存取常用資料的渠道,使得企業可預測地擴充關鍵任務應用程式。
Titan—— 一個可擴充的圖形資料庫,最佳化的目的在於儲存和查詢包含數千億頂點和邊的圖形,分布在多機叢集。
Amazon DynamoDB——一個快速、靈活、完全管理的NoSQL資料庫服務,用於在任何規模需要一致的、個位元毫秒延遲的所有應用程式。
Amazon Kinesis—— 用於在AWS上的流資料的即時平台。
Datomic—— 一個用Clojure寫的完全事務式的,支援雲的,分散式資料庫。
有一句話叫做三人行必有我師,其實做為一個開發人員,有一個學習的氛圍
跟一個交流圈子特別重要這是一個我的大資料交流學習群531629188
不管你是小白還是大牛歡迎入駐,正在求職的也可以加入
,大家一起交流學習,話糙理不糙,互相學習,共同進步,一起加油吧。
Java轉職大資料人群常使用的二十多個大資料工具