大資料熱門詞彙齊報到

來源:互聯網
上載者:User

可以說,大資料是如今IT行業最熱門的趨勢之一,它催生出了處理大資料的一批全新技術。 而新技術帶來了新的熱門詞彙:首字母縮略詞、專業術語和產品名稱等。 連"大資料"這個短語本身都讓人犯暈。 許多人一聽到"大資料",覺得是指"大量資料",而大資料的涵義絕不僅僅涉及資料量的多寡。

下面是我們認為你要熟悉的幾個熱門詞彙,按字母順序排列。

ACID

ACID的全稱是原子性、一致性、隔離性和持久性,這其實是一組需求或屬性:如果這四個方面都得到遵守,就能在處理過程中確保資料庫事務的資料完整性。 雖然ACID問世已有一段時日,但是交易資料量的急劇增長把更多的注意力投向在處理大資料時需要滿足ACID的規定。

大資料三要素

如今的IT系統在生成數量、速度和種類都很"龐大"的資料。

數量:IDC公司估計,今年全球資訊總量將達到2.7澤位元組(這相當於27億太位元組),而且每兩年就翻一番。

速度:讓IT管理人員們頭痛的不僅僅是資料數量,還有資料從金融系統、零售系統、網站、感應器、無線射頻識別(RFID)晶片以及Facebook和推特等社交網路源源而來的速度越來越快。

種類:如果回到5年前或可能10年前,IT人員處理的主要是字母數位資料,它們很容易存儲在關係資料庫中整齊排列的行和列中。 現在不再是這樣了。 如今,推特和Facebook上的帖子、各種文檔及網頁內容等非結構化資料都是大資料組合的一部分。

列式(或列型)資料庫

一些新一代資料庫(如開源Cassandra和惠普的Vertica資料庫)被設計成了按列存儲資料,而不是像傳統的SQL資料庫那樣按行存儲資料。 這種設計提供了更快的磁片存取速度,提高了處理大資料時的性能。 對資料密集型業務分析應用系統而言,列式資料庫尤其受到歡迎。

資料倉儲

資料倉儲這個概念存在至今已有大概25年了,具體指將資料從多個操作IT系統複製到面向業務分析應用系統的輔助離線資料庫

但是隨著資料量急劇增長,資料倉儲系統正在迅速改變。 它們需要存儲更多的資料以及更多種類的資料,因而資料倉儲管理成為一大難題。 10年或20年前,資料可能每週或每月複製到資料倉儲系統中;而如今,資料倉儲的更新要頻繁得多,有的甚至即時更新。

ETL

將資料從一個資料庫(比如支援銀行應用交易處理系統的資料庫)轉移到另一個資料庫(比如用於業務分析的資料倉儲系統)時,就要用到擷取、轉換和下載(ETL)軟體。 資料從一個資料庫傳送到另一個資料庫時,常常需要對資料進行重新格式化和清理操作。

由於資料量急劇增長,資料處理速度大大加快,對ETL工具的性能要求也大大提高了。

Flume

Flume是屬於Apache Hadoop大家族(其他技術包括HBase、Hive、Oozie、Pig和Whirr)的一項技術,這種框架用於為Hadoop填充資料。 該技術使用散佈于應用伺服器、Web伺服器、行動裝置及其他系統上的軟體代理,收集資料,並將資料傳送到Hadoop系統。

比如說,公司可以使用在Web伺服器上運行的Apache Flume,收集來自推特帖子的資料,以便分析。

地理空間分析

推動大資料潮流的一個趨勢是,由如今的IT系統生成和收集的地理空間資料越來越多。 常言道,一幅圖片的資訊量抵得上1000個單詞;所以難怪越來越多的地圖、圖表、照片及其他基於地理位置的內容是導致如今大資料呈爆炸式增長的主要動因。

地理空間分析是一種特殊形式的資料視覺化(參閱下面的"視覺化"條目),在地理地圖上覆蓋資料,以説明使用者更清楚地理解大資料分析的結果。

Hadoop

Hadoop是一種開源平臺,用於開發分散式、資料密集型的應用程式。 它由Apache軟體基金會控制。

Hadoop的發明者是雅虎公司的開發者道格o卡廷(Doug Cutting),他在谷歌實驗室的MapReduce概念這個基礎上開發出了Hadoop,以他兒子的玩具象命名。

另外,HBase是一種非關係資料庫,它是作為Hadoop專案的一部分開發而成的。 Hadoop分散式檔案系統(HDFS)是Hadoop的一個關鍵組成部分。 Hive則是建立在Hadoop基礎上的資料倉儲系統。

記憶體中資料庫

電腦在處理事務或執行查詢時,一般從磁片磁碟機獲取資料。 但是當IT系統處理大資料時,這個過程可能實在太慢。

記憶體中資料庫系統利用電腦的主記憶體來存儲經常使用的資料,因而大大縮短了處理時間。 記憶體中資料庫產品包括SAP HANA和甲骨文Times Ten記憶體中資料庫。

JAVA

JAVA是一種程式設計語言,由現隸屬甲骨文公司的Sun開發,于1995年發佈。 Hadoop和其他許多大資料技術都是使用JAVA開發而成的,它仍是大資料領域一種主要的開發技術。

Kafka

Kafka是一種高輸送量的分散式消息傳送系統,最初是在LinkedIn開發而成,用於管理該服務網站的活動流(關於網站使用方式的資料)和操作資料處理流水線(關於伺服器元件的性能)。

Kafka在處理大量流式資料時很有效,而流式資料是許多大資料計算環境的一個關鍵問題。 由推特開發的Storm是另一種大行其道的流處理技術。

Apache軟體基金會已將Kafka列為一個開源專案。 所以,別以為這是有缺陷的軟體。

延遲時間

延遲時間是指資料從一個點傳送到另一個點過程中的延遲,或者是某個系統(如應用程式)回應另一個系統的延遲數量。

雖然延遲時間不是什麼新術語,但是隨著資料量不斷增長,IT系統竭力跟上步伐,如今你更常聽到這個術語。 簡單地說,"低延遲"是好事,"高延遲"是壞事。

映射/化簡

映射/化簡(Map/Reduce)這種方法是指把一個複雜的問題分解成多個較小的部分,然後將它們分發到多台電腦上,最後把它們重新組裝成一個答案。

谷歌的搜索系統用到了映射/化簡概念,這家公司有一個品牌名為MapReduce的框架。

谷歌在2004年發佈的一份白皮書描述了它使用映射/化簡的情況。 Hadoop之父道格o卡廷充分認識到了其潛力,開發出了同樣借用映射/化簡概念的第一個版本的Hadoop。

NoSQL資料庫

大多數主流的資料庫(如甲骨文資料庫和微軟SQL Server)基於關聯式體系結構,使用結構化查詢語言(SQL)用於開發和資料管理。

但是名為"NoSQL"(有些人現在稱NoSQL表示"不是只有SQL")的新一代資料庫系統基於支援者們認為更適合處理大資料的體系結構。

一些NoSQL資料庫是為提高可擴充性和靈活性設計的,另一些NoSQL資料庫在處理文檔及其他非結構化資料方面比較有效。 典型的NoSQL資料庫包括Hadoop/HBase、Cassandra、MongoDB和CouchDB,而甲骨文等一些知名開發商已推出了各自的NoSQL產品。

Oozie

Apache Oozie是一種開源工作流引擎,用於説明管理面向Hadoop的處理工作。 使用Oozie,一系列工作可以用多種語言(如Pig和MapReduce)來加以定義,然後彼此關聯起來。 比如說,一旦從操作應用程式收集資料的作業已完成,程式師就可以啟動資料分析查詢任務。

Pig

Pig是Apache軟體基金會的另一個專案,這個平臺用於分析龐大的資料集。 就其本質而言,Pig是一種程式設計語言,可用於開發在Hadoop上運行的平行計算查詢。

定量資料分析

定量資料分析是指使用複雜的數學或統計模型,解釋金融和商業行為,或者甚至預測未來的行為。

由於如今收集的資料量急劇增加,定量資料分析已變得更加複雜。 但是如果公司知道如何利用海量資料,獲得更好的可視性,深入瞭解公司業務,並且洞察市場發展趨勢,那麼更多的資料也有望在資料分析方面帶來更多的機會。

一個問題是,擁有這種分析技能的人才嚴重匱乏。 知名諮詢公司麥肯錫表示,光美國就需要150萬名擁有大資料分析技能的分析員和管理員。

關係資料庫

關係資料庫管理系統(RDBM)是如今使用最廣泛的一種資料庫,包括IBM的DB2、微軟的SQL Server和甲骨文資料庫。 從銀行應用系統、零售店的銷售點系統到庫存管理應用軟體,大多數的企業交易處理系統都在RDBM上運行。

但有些人認為,關係資料庫可能跟不上如今資料量和種類都呈爆炸式增長的形勢。 比如說,RDBM當初在設計時著眼于處理字母數位資料,處理非結構化資料時不是同樣有效。

分片

隨著資料庫變得越來越龐大,處理起來也變得越來越困難。 分片(sharding)是一種資料庫分區技術,把資料庫分成了更小、更容易管理的部分。 具體來說,資料庫被橫向分區,以便單獨管理資料庫表中的不同行。

分片方法讓龐大資料庫的片段可以分佈在多台伺服器上,從而提高資料庫的整體運行速度和性能。

另外,Sqoop是一種開源工具,用於將來自非Hadoop來源(如關係資料庫)的資料轉移到Hadoop環境。

文本分析

導致大資料問題的因素之一是,從推特和Facebook等社交媒體網站、外部新聞源,甚至公司內部收集而來以便分析的文本數量越來越多。 由於文本是非結構化資料(不像通常存儲在關係資料庫中的結構化資料),主流的業務分析工具面對文本時常常束手無策。

文本分析採用了一系列方法(關鍵字搜索、統計分析法和語言研究法等),從基於文本的資料中獲得洞察力。

非結構化資料

就在不久前,大部分資料還是結構化資料,這種字母數位資訊(如來自銷售交易的財務資料)很容易存儲在關係資料庫中,並由商業智慧工具來分析。

但是如今共計2.7澤位元組的存儲資料中很大一部分是非結構化資料,比如基於文本的文檔、推特消息、發佈在Flickr上的照片、發佈在YouTube上的視頻,等等。 (頗有意思的是,每分鐘有長達35個小時的視頻內容上傳到YouTube。 )處理、存儲和分析所有這些淩亂的非結構化資料常常是如今的IT系統面臨的難題。

視覺化

隨著資料量的增長,人們使用靜態的圖表和圖形來理解資料越來越困難了。 這就導致開發新一代的資料視覺化和分析工具,能夠以新的方式呈現資料,從而説明人們理解海量資訊。

這些工具組括:標以色碼的熱圖,三維圖形,顯示一段時間內變化的動畫視覺化,以及在地理地圖上覆蓋資料的地理空間呈現。 今天的先進資料視覺化檢視還具有更強的互動性,比如允許使用者放大某個資料子集,進行更仔細的檢查。

Whirr

Apache Whirr是一組JAVA類庫,用於運行大資料雲服務。 更確切地說,它可以加快在亞馬遜彈性計算雲(EC2)和Rackspace等虛擬基礎設施上開發Hadoop集群的過程。

XML

可擴展標記語言(XML)用來傳輸和存儲資料(別與HTML混為一談,後者用來顯示資料)。 借助XML,程式師們就可以創建通用的資料格式,並通過互聯網共用資訊和格式。

由於XML文檔可能非常龐大、複雜,它們往往被認為導致IT部門面臨大資料挑戰。

堯位元組

堯位元組(yottabyte)是一種資料存儲度量指標,相當於1000澤位元組。 據知名調研機構IDC公司估計,今年全球存儲的資料總量預計將達到2.7澤位元組,比2011年增長48%。 所以,我們離達到堯位元組這個大關還有很長一段路,不過從目前大資料的增長速度來看,那一天的到來可能比我們想像的要快。

順便說一下,1澤位元組相當於1021位元組的資料。 它相當於1000艾位元組(EB)、100萬拍位元組(PB)和10億太位元組(TB)。

ZooKeeper

ZooKeeper是由Apache軟體基金會創建的一項服務,旨在説明Hadoop使用者管理和協調跨分散式網路的Hadoop節點。

ZooKeeper與HBase緊密集成,而HBase是與Hadoop有關的資料庫。 ZooKeeper是一項集中式服務,用於維護配置資訊、命名服務、分散式同步及其他群組服務。 IT管理人員用它來實現可靠的消息傳遞機制、同步流程執行及實施冗余服務。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.