大資料時代已經來臨,並悄悄的影響著我們的生活。 根據IDC最近一項研究顯示,在Facebook上每20分鐘就有100萬個新連結被分享,1000萬條使用者評論被發佈。 Facebook和其他所有互聯網網站、互聯網應用,已經逐漸變成了整個資料獲取、分析、處理、增值的資料架構。
在中國,社交網路同樣如火如荼。 新浪副總裁王高飛就曾表示,新浪微博的註冊使用者已超過3億,使用者平均每天發佈超過1億條微博內容,相當於每10個中國人裡面,就會有一人每天發佈一條微博。 每位使用者的平均線上時長為60分鐘,活躍使用者中有60%通過移動終端登錄,所有來自移動終端的原創內容中,有40%的微博分享照片。 在社交網路的影響下,使用者通過行動裝置能夠在任何時間、任何地點、任何狀態下消費和創造資料。
社交網路和移動互聯網的發展催生出大量的非結構化資料,這是一種有別于傳統結構化的一種資料類型,常見的圖像、視頻、音樂、辦公文檔、Web頁面、微博、即時通信和感應器產生的資料等都屬於非結構化資料。 據英特爾亞太研發有限公司總經理、軟體與服務事業部中國區總經理何京翔博士介紹,當前每48小時產生的資料量相當於人類文明到 2003年產生的資料量總和,未來隨著物聯網和智慧城市的發展,這一數位將更加驚人, 且多為感應器等資料獲取裝置所產生的非結構化資料。
除此之外,傳統企業同樣面臨大資料的挑戰。 據Gartner預測,企業資料將在五年內增加800%,其中80%結構化的。 來自團體、社區,以及社交網路的非業務資料會成為這種趨勢中的大部分。 非結構化資料的爆炸式增長,使傳統資料庫面臨巨大挑戰,Hadoop逐漸成為全球IT產業的寵兒。
Hadoop是一個100%的分散式檔案系統,被稱為繼Linux以來最成功的開源軟體,其最大的優勢就是存儲和計算非結構化資料。 Hadoop可以利用高性價比的X86伺服器組成高性能集群,當資料量增加到無法負荷的時候,只需增加相應節點即可滿足計算需求,價格低廉的存儲和計算是大資料的推動力。
傳統資料庫的Hadoop夢想
與Hadoop不同,資料庫自誕生之日起,就承載了企業中結構化資料的日常管理。 資料庫的發展經歷了人工管理、檔案系統和資料庫系統三個階段,在市場趨勢的影響下,資料庫朝著新的方向不斷變革。 據IDC統計,2011年全球資料總量已經達到了1.8ZB,2020年將達到35ZB,這意味著全球資料將進入大爆炸的時代。 傳統資料庫廠商紛紛推出各自的大資料解決方案,這些解決方案有一個共同的關鍵字Hadoop。
Hadoop分散式系統基礎架構,主要由HDFSHTTP://xilele.cctv.com/pinpai/dongtai/yiliao/491659.htm、MapReduce和HBase組成, 是一個能夠便捷的開發和運行處理大資料的軟體平臺。 Hadoop 不等於資料庫,它們之間最大的區別就在於,資料庫擅長處理結構化資料,而Hadoop擅長處理非結構化資料,資料類型多樣化則是大資料的特徵之一。 Hadoop對資料庫廠商而言,既是,也是機遇,如果能夠讓Hadoop為資料庫所用,將為資料庫打造一片新的天空。 下面筆者將對支援Hadoop的資料庫進行盤點,並對其大資料策略簡要分析。
Oracle:甲骨文公司在資料庫領域一直處於領先地位,其旗下的Oracle資料庫是一款最受歡迎的關聯式資料庫產品。 甲骨文公司全球副總裁、大中華區技術總經理喻思成曾表示,甲骨文公司更專注的是結構化的工具和RDBMS平臺,但在過去的一年中,甲骨文公司也開始走進大資料時代。 事實也的確如此,甲骨文公司意識到Hadoop在大資料處理方面的潛力,推出以Hadoop為基礎的大資料機(Big Data Application),其中包括開源Apache Hadoop、Oracle NoSQL資料庫、 Oracle資料整合Hadoop應用配接器、Oracle Hadoop裝載器以及開源R,並與Cloudera公司合作提供Apache Hadoop系列軟體。
IBM DB2:IBM是關聯式資料庫的創造者,對資料庫的誕生和發展舉足輕重,然而處在大資料的新時期,老牌關聯式資料庫也需要不斷創新、迎接挑戰。 IBM中國研究院院士、首席技術官王雲曾在2012中國資料庫技術大會上表示,大資料不能用傳統方法處理,傳統關聯式資料庫起源于OLTP功能,能夠資料準確記錄;而大資料是新的應用,是OLAP的體現, 這也是關聯式資料庫不能滿足大資料的原因。 IBM推出的大資料平臺包括Hadoop和Stream Computing兩個元件,通過新的徑解決大資料分析處理。
SQL Server:微軟作為全球知名的軟體公司,在資料庫領域的地位不容小覷。 微軟SQL Server 2012引入Hadoop,説明客戶無縫存儲和處理所有類型的資料,包括結構化、非結構化和即時資料。 除此之外,微軟還將同時在Windows Azure平臺和Windows Server上提供 Hadoop,形成完整的大資料解決方案。 正如微軟亞太研發集團首席技術官孫博凱所說,微軟與Hadoop是一個強強組合,能夠把Hadoop的高性能、高可擴展與微軟產品易用、易部署的傳統優勢融合到一起。
SAP:SAP公司是全球知名的企業管理軟體供應商,自2010年SAP收購Sybase以來,開始成為資料庫界一顆冉冉升起的新星。 SAP將資料庫技術作為2012年重點發展領域之一,形成了以SAP HANA為核心,以SAP Sybase資料庫為基礎的大資料戰略。 在這一戰略中,特別重要的一環就是Hadoop。 通過SAP HANA和SAP Sybase IQ與Hadoop的集成,增強對Hadoop等大資料來源的獲取能力,並提供深度集成的預處理基礎架構。
EMC Greenplum:EMC是全球知名資訊存儲服務提供者,與SAP相似,在2010年收購了Greenplum,開始發展其資料庫市場。 目前 Greenplum的資料庫產品包括傳統的Greenplum Database和Greenplum HD(Hadoop),前者用來應對企業結構化資料,後者可以將非結構化資料導入Greenplum中進行存儲和分析。 EMC在中國的市場戰略,以「大資料推動業務轉型」為核心,EMC資料計算產品部大中華區總經理劉偉光曾對筆者表示,EMC之所以會推出Greenplum Hadoop版本,是對Hadoop的未來發展前景充滿信心。
除了以上提到的五款主流資料庫,仍有越來越多的傳統資料庫廠商正在加入 Hadoop陣營,這其中還包括Teradata、Informatica、Pentaho、Talend等資料庫、資料倉儲及商業智慧服務提供者。 此外,Hadoop還是NoSQL資料庫的主要架構之一。