標籤:大資料 轉職 Java 工具
當今IT開發人員面對的最大挑戰就是複雜性,硬體越來越複雜,OS越來越複雜,程式設計語言和API越來越複雜,我們構建的應用也越來越複雜。根據外媒的一項調查報告,中軟卓越專家列出了Java程式員在過去12個月內一直使用的一些工具或架構,或許會對你有意義。
先來看看大資料的概念。根據維基百科,大資料是龐大或複雜的資料集的廣義術語,因此傳統的資料處理程式不足以支援如此龐大的體量。
在許多情況下,使用SQL資料庫儲存/檢索資料都是很好的選擇。而現如今的很多情況下,它都不再能滿足我們的目的,這一切都取決於用例的變化。
現在來討論一些不同的非SQL儲存/處理資料工具,例如,NoSQL資料庫,全文檢索搜尋引擎,即時資料流式處理,圖形資料庫等。
1、MongoDB——最受歡迎的,跨平台的,面向文檔的資料庫。
MongoDB是一個基於分布式檔案儲存體的資料庫,使用C++語言編寫。旨在為Web應用提供可擴充的高效能資料儲存解決方案。應用效能高低依賴於資料庫效能,MongoDB則是非關聯式資料庫中功能最豐富,最像關聯式資料庫的,隨著MongDB 3.4版本發布,其應用情境適用能力得到了進一步拓展。
MongoDB的核心優勢就是靈活的文檔模型、高可用複製集、可擴充分區叢集。你可以試著從幾大方面瞭解MongoDB,如即時監控MongoDB工具、記憶體使用量量和分頁錯誤、串連數、資料庫操作、複製集等。
2、Elasticsearch ——為雲構建的分布式RESTful搜尋引擎。
Elasticsearch是基於Lucene的搜尋伺服器。它提供了分布式多使用者能力的全文檢索搜尋引擎,基於RESTful web介面。Elasticsearch是用Java開發的,並作為Apache授權條款下的開放源碼發布,是比較流行的企業級搜尋引擎。
Elasticsearch不僅是一個全文本搜尋引擎,還是一個分布式即時文檔儲存,其中每個field均是被索引的資料且可被搜尋;也是一個帶即時分析功能的分布式搜尋引擎,並且能夠擴充至數以百計的伺服器儲存及處理PB級的資料。Elasticsearch在底層利用Lucene完成其索引功能,因此其許多基本概念源於Lucene。
3、Cassandra——開源分散式資料庫管理系統,最初是由Facebook開發的,旨在處理許多商品伺服器上的大量資料,提供高可用性,沒有單點故障。
Apache Cassandra是一套開源分布式NoSQL資料庫系統。集Google BigTable的資料模型與Amazon Dynamo的完全分布式架構於一身。於2008開源,此後,由於Cassandra良好的可擴充性,被Digg、Twitter等Web 2.0網站所採納,成為了一種流行的分布式結構化資料存放區方案。
因Cassandra是用Java編寫的,所以理論上在具有JDK6及以上版本的機器中都可以運行,官方測試的JDK還有OpenJDK 及Sun的JDK。 Cassandra的操作命令,類似於我們平時操作的關聯式資料庫,對於熟悉MySQL的朋友來說,操作會很容易上手。
4、Redis ——開源(BSD許可)記憶體資料結構儲存,用作資料庫,緩衝和訊息代理。 Redis是一個開源的使用ANSI C語言編寫的、支援網路、可基於記憶體亦可持久化的日誌型、Key-Value資料庫,並提供多種語言的API。Redis 有三個主要使其有別於其它很多競爭者的特點:Redis是完全在記憶體中儲存資料的資料庫,使用磁碟只是為了持久性目的; Redis相比許多索引值資料存放區系統有相對豐富的資料類型; Redis可以將資料複製到任意數
5、Hazelcast ——基於Java的開源記憶體資料格。
Hazelcast 是一種記憶體資料格 in-memory data grid,提供Java程式員關鍵任務交易和萬億級記憶體應用。雖然Hazelcast沒有所謂的“Master”,但是仍然有一個Leader節點(the oldest member),這個概念與ZooKeeper中的Leader類似,但是實現原理卻完全不同。同時,Hazelcast中的資料是分布式的,每一個member持有部分資料和相應的backup資料,這點也與ZooKeeper不同。
Hazelcast的應用便捷性深受開發人員喜歡,但如果要投入使用,還需要謹慎考慮。
6、EHCache——廣泛使用的開源Java分布式緩衝。主要面向通用緩衝、Java EE和輕量級容器。
EhCache 是一個純Java的進程內緩衝架構,具有快速、精乾等特點,是hibernate中預設的CacheProvider。主要特性有:快速簡單,具有多種緩衝策略;快取資料有兩級,記憶體和磁碟,因此無需擔心容量問題;快取資料會在虛擬機器重啟的過程中寫入磁碟;可以通過RMI、可插入API等方式進行分布式緩衝;具有緩衝和緩衝管理器的偵聽介面;支援多緩衝管理器執行個體,以及一個執行個體的多個快取區域;提供Hibernate的緩衝實現。
7、Hadoop ——用Java編寫的開源軟體架構,用於分布式儲存,並對非常大的資料使用者可以在不瞭解分布式底層細節的情況下,開發分布式程式。充分利用叢集進行高速運算和儲存。Hadoop實現了一個Distributed File System(Hadoop Distributed File System),簡稱HDFS。Hadoop的架構最核心的設計就是:HDFS和MapReduce。HDFS為海量的資料提供了儲存,MapReduce則為海量的資料提供了計算。
8、Solr ——開源企業搜尋平台,用Java編寫,來自Apache Lucene項目。
Solr是一個獨立的企業級搜尋應用伺服器,它對外提供類似於Web-service的API介面。使用者可以通過http請求,向搜尋引擎伺服器提交一定格式的XML檔案,產生索引;也可以通過Http Get操作提出尋找請求,並得到XML格式的返回結果。
與Elasticsearch一樣,同樣是基於Lucene,但它對其進行了擴充,提供了比Lucene更為豐富的查詢語言,同時實現了可配置、可擴充並對查詢效能進行了最佳化。
9、Spark ——Apache Software Foundation中最活躍的項目,是一個開源叢集計算架構。
Spark 是一種與 Hadoop 相似的開源叢集計算環境,但是兩者之間還存在一些不同之處,這些不同之處使 Spark 在某些工作負載方面表現得更加優越,換句話說,Spark 啟用了記憶體分布資料集,除了能夠提供互動式查詢外,它還可以最佳化迭代工作負載。
Spark 是在 Scala 語言中實現的,它將 Scala 用作其應用程式架構。與 Hadoop 不同,Spark 和 Scala 能夠緊密整合,其中的 Scala 可以像操作本地集合對象一樣輕鬆地
10、Memcached ——通用分布式記憶體緩衝系統。
Memcached是一套分布式快取系統,當初是Danga Interactive為了LiveJournal所發展的,但被許多軟體(如MediaWiki)所使用。Memcached作為高速啟動並執行分布式快取服務器,具有以下的特點:協議簡單,基於libevent的事件處理,內建記憶體儲存方式。
我還是要推薦下我自己建立的大資料學習交流Qun531629188
無論是大牛還是想轉行想學習的大學生
小編我都挺歡迎,今天的已經資訊上傳到群檔案,不定期分享乾貨,
包括我自己整理的一份最新的適合2018年學習的大資料教程,歡迎初學和進階中的小夥伴。
給Java開發人員的十個大資料架構和工具