大資料熱門詞彙齊報到

來源:互聯網
上載者:User

可以說,大資料是如今IT行業最熱門的趨勢之一,它催生出了處理大資料的一批全新技術。 而新技術帶來了新的熱門詞彙:首字母縮略詞、專業術語和產品名稱等。 連"大資料"這個短語本身都讓人犯暈。 許多人一聽到"大資料",覺得是指"大量資料",而大資料的涵義絕不僅僅涉及資料量的多寡。

下面是我們認為你要熟悉的幾個熱門詞彙,按字母順序排列。

ACID

ACID的全稱是原子性、一致性、隔離性和持久性,這其實是一組需求或屬性:如果這四個方面都得到遵守,就能在處理過程中確保資料庫事務的資料完整性。 雖然ACID問世已有一段時日,但是交易資料量的急劇增長把更多的注意力投向在處理大資料時需要滿足ACID的規定。

大資料三要素

如今的IT系統在生成數量、速度和種類都很"龐大"的資料。

數量:IDC公司估計,今年全球資訊總量將達到2.7澤位元組(這相當於27億太位元組),而且每兩年就翻一番。

速度:讓IT管理人員們頭痛的不僅僅是資料數量,還有資料從金融系統、零售系統、網站、感應器、無線射頻識別(RFID)晶片以及Facebook和推特等社交網路源源而來的速度越來越快。

種類:如果回到5年前或可能10年前,IT人員處理的主要是字母數位資料,它們很容易存儲在關係資料庫中整齊排列的行和列中。 現在不再是這樣了。 如今,推特和Facebook上的帖子、各種文檔及網頁內容等非結構化資料都是大資料組合的一部分。

列式(或列型)資料庫

一些新一代資料庫(如開源Cassandra和惠普的Vertica資料庫)被設計成了按列存儲資料,而不是像傳統的SQL資料庫那樣按行存儲資料。 這種設計提供了更快的磁片存取速度,提高了處理大資料時的性能。 對資料密集型業務分析應用系統而言,列式資料庫尤其受到歡迎。

資料倉儲

資料倉儲這個概念存在至今已有大概25年了,具體指將資料從多個操作IT系統複製到面向業務分析應用系統的輔助離線資料庫

但是隨著資料量急劇增長,資料倉儲系統正在迅速改變。 它們需要存儲更多的資料以及更多種類的資料,因而資料倉儲管理成為一大難題。 10年或20年前,資料可能每週或每月複製到資料倉儲系統中;而如今,資料倉儲的更新要頻繁得多,有的甚至即時更新。

ETL

將資料從一個資料庫(比如支援銀行應用交易處理系統的資料庫)轉移到另一個資料庫(比如用於業務分析的資料倉儲系統)時,就要用到擷取、轉換和下載(ETL)軟體。 資料從一個資料庫傳送到另一個資料庫時,常常需要對資料進行重新格式化和清理操作。

由於資料量急劇增長,資料處理速度大大加快,對ETL工具的性能要求也大大提高了。

Flume

Flume是屬於Apache Hadoop大家族(其他技術包括HBase、Hive、Oozie、Pig和Whirr)的一項技術,這種框架用於為Hadoop填充資料。 該技術使用散佈于應用伺服器、Web伺服器、行動裝置及其他系統上的軟體代理,收集資料,並將資料傳送到Hadoop系統。

比如說,公司可以使用在Web伺服器上運行的Apache Flume,收集來自推特帖子的資料,以便分析。

地理空間分析

推動大資料潮流的一個趨勢是,由如今的IT系統生成和收集的地理空間資料越來越多。 常言道,一幅圖片的資訊量抵得上1000個單詞;所以難怪越來越多的地圖、圖表、照片及其他基於地理位置的內容是導致如今大資料呈爆炸式增長的主要動因。

地理空間分析是一種特殊形式的資料視覺化(參閱下面的"視覺化"條目),在地理地圖上覆蓋資料,以説明使用者更清楚地理解大資料分析的結果。

Hadoop

Hadoop是一種開源平臺,用於開發分散式、資料密集型的應用程式。 它由Apache軟體基金會控制。

Hadoop的發明者是雅虎公司的開發者道格o卡廷(Doug Cutting),他在谷歌實驗室的MapReduce概念這個基礎上開發出了Hadoop,以他兒子的玩具象命名。

另外,HBase是一種非關係資料庫,它是作為Hadoop專案的一部分開發而成的。 Hadoop分散式檔案系統(HDFS)是Hadoop的一個關鍵組成部分。 Hive則是建立在Hadoop基礎上的資料倉儲系統。

記憶體中資料庫

電腦在處理事務或執行查詢時,一般從磁片磁碟機獲取資料。 但是當IT系統處理大資料時,這個過程可能實在太慢。

記憶體中資料庫系統利用電腦的主記憶體來存儲經常使用的資料,因而大大縮短了處理時間。 記憶體中資料庫產品包括SAP HANA和甲骨文Times Ten記憶體中資料庫。

JAVA

JAVA是一種程式設計語言,由現隸屬甲骨文公司的Sun開發,于1995年發佈。 Hadoop和其他許多大資料技術都是使用JAVA開發而成的,它仍是大資料領域一種主要的開發技術。

Kafka

Kafka是一種高輸送量的分散式消息傳送系統,最初是在LinkedIn開發而成,用於管理該服務網站的活動流(關於網站使用方式的資料)和操作資料處理流水線(關於伺服器元件的性能)。

Kafka在處理大量流式資料時很有效,而流式資料是許多大資料計算環境的一個關鍵問題。 由推特開發的Storm是另一種大行其道的流處理技術。

Apache軟體基金會已將Kafka列為一個開源專案。 所以,別以為這是有缺陷的軟體。

延遲時間

延遲時間是指資料從一個點傳送到另一個點過程中的延遲,或者是某個系統(如應用程式)回應另一個系統的延遲數量。

雖然延遲時間不是什麼新術語,但是隨著資料量不斷增長,IT系統竭力跟上步伐,如今你更常聽到這個術語。 簡單地說,"低延遲"是好事,"高延遲"是壞事。

映射/化簡

映射/化簡(Map/Reduce)這種方法是指把一個複雜的問題分解成多個較小的部分,然後將它們分發到多台電腦上,最後把它們重新組裝成一個答案。

谷歌的搜索系統用到了映射/化簡概念,這家公司有一個品牌名為MapReduce的框架。

谷歌在2004年發佈的一份白皮書描述了它使用映射/化簡的情況。 Hadoop之父道格o卡廷充分認識到了其潛力,開發出了同樣借用映射/化簡概念的第一個版本的Hadoop。

NoSQL資料庫

大多數主流的資料庫(如甲骨文資料庫和微軟SQL Server)基於關聯式體系結構,使用結構化查詢語言(SQL)用於開發和資料管理。

但是名為"NoSQL"(有些人現在稱NoSQL表示"不是只有SQL")的新一代資料庫系統基於支援者們認為更適合處理大資料的體系結構。

一些NoSQL資料庫是為提高可擴充性和靈活性設計的,另一些NoSQL資料庫在處理文檔及其他非結構化資料方面比較有效。 典型的NoSQL資料庫包括Hadoop/HBase、Cassandra、MongoDB和CouchDB,而甲骨文等一些知名開發商已推出了各自的NoSQL產品。

Oozie

Apache Oozie是一種開源工作流引擎,用於説明管理面向Hadoop的處理工作。 使用Oozie,一系列工作可以用多種語言(如Pig和MapReduce)來加以定義,然後彼此關聯起來。 比如說,一旦從操作應用程式收集資料的作業已完成,程式師就可以啟動資料分析查詢任務。

Pig

Pig是Apache軟體基金會的另一個專案,這個平臺用於分析龐大的資料集。 就其本質而言,Pig是一種程式設計語言,可用於開發在Hadoop上運行的平行計算查詢。

定量資料分析

定量資料分析是指使用複雜的數學或統計模型,解釋金融和商業行為,或者甚至預測未來的行為。

由於如今收集的資料量急劇增加,定量資料分析已變得更加複雜。 但是如果公司知道如何利用海量資料,獲得更好的可視性,深入瞭解公司業務,並且洞察市場發展趨勢,那麼更多的資料也有望在資料分析方面帶來更多的機會。

一個問題是,擁有這種分析技能的人才嚴重匱乏。 知名諮詢公司麥肯錫表示,光美國就需要150萬名擁有大資料分析技能的分析員和管理員。

(責任編輯:蒙遺善)

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.