大資料這一概念,對於國內企業來說或許還稍顯陌生,目前內地從事這一領域的企業少之又少。 但在國外,大資料被科技企業看作是雲計算之後的另一個巨大商機,包括微軟、谷歌、亞馬遜和微軟在內的一大批知名企業紛紛掘金這一市場。 此外,很多初創企業也開始加入到大資料的淘金隊伍中,這一領域已經成為實實在在的紅海。
在本文中,作者整理了當今世界上在大資料領域最具話語權的企業,它們有的是電腦或者互聯網領域的巨頭,有的是剛剛創辦不久的初創企業。 但它們有一個共同點,那就是它們都看到了大資料帶來的大機會於是毫不猶豫地挺進了這個領域。
雖然大資料是比雲計算還要新興的一個術語,但是通過文章裡列舉的一些公司可以發現,在此領域已有很多外國企業深耕已久,但是國內企業在這個領域還幾乎是空白。
傳統巨頭:
企業名稱:IBM
網址:HTTP://www.ibm.com/
上線時間:2011年5月
公司位址:美國紐約州阿蒙克市
融資狀況:IBM業務
業務方向:主要面向大企業等市場
IBM Logo(圖片來自網路,下同)
IBM這個藍色巨人現如今雖已經沒有上世紀名號響亮,但是在如今企業市場的各個領域卻具有無可爭議的話語權,自然它也不會放過大資料這塊肥肉,現在它是全球最大的資訊技術和業務解決方案公司。
2011年5月,IBM正式推出InfoSphere大資料分析平臺。 InfoSphere大資料分析平臺包括 BigInsights和Streams,二者互補,Biglnsights基於Hadoop,對大規模的靜態資料進行分析,它提供多節點的分散式運算,可以隨時增加節點,提升資料處理能力。 Streams採用記憶體計算方式分析即時資料。 InfoSphere大資料分析平臺還集成了資料倉儲、資料庫、資料整合、業務流程管理等元件。
企業名稱:亞馬遜
網址:HTTP://www.amazon.com/
上線時間:2009年
公司位址:美國華盛頓州西雅圖
融資狀況:亞馬遜業務
業務方向:主要面向大企業等市場
亞馬遜
對於雲計算和大資料,亞馬遜絕對具有先見之明,早在2009年就推出了亞馬遜彈性MapReduce(Amazon Elastic MapReduce),亞馬遜對Hadoop的需求和應用可謂了若指掌,無論是中小型企業還是大型組織。 彈性MapReduce是一項能夠迅速擴展的Web服務,運行在亞馬遜彈性計算雲(Amazon EC2)和亞馬遜簡單存儲服務(Amazon S3)上。 這可是貨真價實的雲:面對資料密集型任務,比如互聯網索引、資料採礦、日誌檔分析、機器學習、金融分析、科學類比和生物資訊學研究,使用者需要多大容量,立即就能配置到多大容量。
除了資料處理外,使用者還可以使用Karmasphere Analyst的基於服務的版本,Karmasphere Analyst是一種視覺化工作區,用於在亞馬遜彈性MapReduce上分析資料。 使用者還可以提取結果檔,以便在資料庫或者微軟Excel或Tableau等工具中使用。
企業名稱:甲骨文
網址:HTTP://www.oracle.com/
上線時間:2010年
公司位址:美國加州紅木城
融資狀況:甲骨文業務
業務方向:主要面向大企業等市場
Oracle
甲骨文在近期發佈的Oracle大資料機(Oracle Big Data Appliance)為許多企業提供了一種處理海量非結構化資料的方法。 在2011年10月初召開的Oracle OpenWorld 2011大會上甲骨文正式推出了Oracle大資料機。 對於那些正在尋求以更高效的方法來採集、組織和分析海量非結構化資料的企業而言,該產品具有很大的吸引力。
與甲骨文近期推出的其他一體化產品一樣,Oracle大資料機集成了硬體、存儲和軟體,包括Apache Hadoop軟體的開原始程式碼分發、新的甲骨文NoSQL資料庫和用於統計分析的R語言開原始程式碼分發。 該產品被設計為能夠與甲骨文Database 11g、Oracle Exadata資料庫雲伺服器,以及針對商業智慧應用的新的Oracle Exalytics商業智慧雲伺服器一起協同工作。
企業名稱:谷歌
網址:HTTP://www.google.com/
上線時間:2011年
公司位址:美國加州山景城
融資狀況:谷歌業務
業務方向:面向各類企業市場
谷歌一直是科技行業的領軍者,近年來幾乎在任何一項互聯網科技專案你都能看到谷歌的身影,大資料時代谷歌自然不會錯過。 何況如果對其擁有的海量資料進行深入挖掘,這對於提升谷歌搜索乃至所有谷歌服務的價值無可估量。
BigQuery是Google推出的一項Web服務,用來在雲端處理大資料。 該服務讓開發者可以使用Google的架構來運行SQL語句對超級大的資料庫進行操作。 BigQuery允許使用者上傳他們的超大量資料並通過其直接進行互動式分析,從而不必投資建立自己的資料中心。 Google曾表示BigQuery引擎可 以快速掃描高達70TB未經壓縮處理的資料,並且可馬上得到分析結果。 大資料在雲端模型具備很多優勢,BigQuery服務無需組織提供或建立資料倉儲。 而BigQuery在安全性和資料備份服務也相當完善。
去年底該服務只向一小部分開發者開放,現在任何人都可以註冊這項服務。 免費帳號可以讓你每月訪問高達100GB的資料,你也可以付費使用額外查詢和存儲空間。
企業名稱:微軟
網址:HTTP://www.microsoft.com/
上線時間:2011年
公司位址:美國華盛頓州雷德蒙市
融資狀況:微軟業務
業務方向:面向各類企業市場
微軟研究部門從2006年起就一直致力於某種非常類似于Hadoop的專案,被稱為「Dryad」。 今年年初,該計畫通過與SQL Server和Windows Azure雲的集成實現了Dryad的產品化。 雖然現在微軟還沒有更新,但看上去Dryad似乎將成為在SQL Server平臺上影響大資料愛好者的有力競爭者。
微軟進入這一市場可謂「姍姍來遲」,而且在一定程度上說,資料倉儲分析和記憶體分析計算市場落下了後腿。 2011年初微軟發佈的SQL Server R2 Parallel Data Warehouse(PDW,並行資料倉儲),PDW使用了大規模並行處理來支援高擴充性,它可以説明客戶擴展部署數百TB級別資料的分析解決方案。 微軟目前已經開始提供Hadoop Connector for SQL Server Parallel Data Warehouse和Hadoop Connector for SQL Server社區技術預覽版本的連接器。 該連接器是雙向的,你可以在Hadoop和微軟資料庫伺服器之間向前或者向後遷移資料。
微軟在去年推出了基於Azure雲平臺的測試版Hadoop服務,今年它承諾會推出與Windows相容的基於Hadoop的大資料解決方案(Big Data Solution),這是微軟SQL Server 2012版本( 首發日期還不知道)的一部分,現在也不清楚微軟是否會與其他硬體合作夥伴或者相關大資料設備廠商合作。
企業名稱:EMC
網址:HTTP://www.emc.com/
上線時間:不詳
公司位址:美國麻州Hopkinton市
融資狀況:EMC業務
業務方向:面向各類企業市場
EMC于1979年成立于美國麻州Hopkinton市,1989年開始進入企業資料儲存市場。 EMC公司是全球資訊存儲及管理產品、服務和解決方案方面的領先公司。 EMC是每一種主要計算平臺的資訊存儲標準,而且,世界上最重要資訊中的 2/3 以上都是通過EMC的解決方案管理的。
面對大資料時代,EMC公司推出用於支援大資料分析的下一代平臺――EMC Greenplum統一分析平臺(UAP)。 Greenplum UAP是一個唯一的統一資料分析平臺,可擴展至其他工具,其獨特之處在于,它將對大資料的認知和分享貫穿整個分析過程,實現比以往更高的商業價值。
企業名稱:Teradata
網址:HTTP://www.teradata.com/
上線時間:2011年
公司位址:美國俄亥俄州邁阿密斯堡
融資狀況:Teradata業務
業務方向:面向各類企業市場
Teradata
Teradata公司(Teradata Corporation,紐約證券交易所交易代碼TDC)是全球領先的資料倉儲,大資料分析和整合行銷管理解決方案供應商,專注于資料庫軟體,資料倉儲專用平臺及企業分析方案。 不久前宣佈推出一款集硬體、軟體和服務于一體的全面產品群組——Teradata分析生態系統 (Teradata Analytical Ecosystem),使不同的 Teradata 系統實現無縫協作, 為企業客戶提供分析和更深入的洞察力,説明其預測商業機會和加速實現商業價值。 Teradata Unity 將確保整個Teradata Analytical Ecosystem的同步和統一。 為了增強在大資料分析領域的優勢, Teradata還收購Aster Data公司,以增強其非傳統資料分析的能力,突破了SQL分析的限制,協助企業從全部資料中獲取更多價值。
企業名稱:NetApp
網址:HTTP://www.netapp.com
上線時間:2011年
公司位址:美國加利福尼亞州森尼韋爾
融資狀況:NetApp業務
業務方向:面向各類企業市場
Network Appliance,Inc.(NetApp,美國網域存儲技術有限公司)是IT存儲業界的佼佼者,自1992年創業以來,不斷以創新的理念和領先的技術引領存儲行業的發展。 Network Appliance, Inc. (NetApp) 是向目前的資料密集型企業提供統一存儲解決方案的居世界最前列的公司。
NetApp StorageGRID 是一個久經驗證的物件存儲軟體解決方案,設計用於管理 PB 級、全球分佈的存儲庫,這些存儲庫包含企業和服務提供者的圖像、視頻和記錄。 通過消除資料塊和檔中資料容器的典型約束,NetApp StorageGRID 提供了強大的可擴充性。 它支援單個全域命名空間內的數十億個檔或物件和 PB 級容量。
NetApp StorageGRID 實現了智慧的資料管理和安全的內容保留。 它通過一個具有內置安全性的全域原則引擎來優化資料存放、中繼資料管理和效率,該引擎管理資料的存儲、放置、保護和檢索的方式。 此外,使用數位指紋和加密等技術防止內容受到篡改。
NetApp StorageGRID 有助於隨時隨地提供資料,以便於不間斷地運營。 該解決方案被設計為允許靈活進行部署配置,以滿足全球的多網站組織的不同需要。
企業名稱:Sybase
網址:www.sybase.com
上線時間:2011年
公司位址:美國加州Dublin市
融資狀況:Sybase業務
業務方向:面向各類企業市場
Sybase
Sybase公司成立于1984年11月,總部設在美國加州的Emeryville(現為美國加州的Dublin市)。 作為全球最大的獨立軟體廠商之一,Sybase公司致力於説明企業等各種機構進行應用、內容及資料的管理和發佈。
Sybase IQ是Sybase公司推出的特別為資料倉儲設計的關聯式資料庫。 相比于傳統的「行式存儲」的關聯式資料庫, Sybase IQ 使用了獨特的列式存儲方式,在進行分析查詢時,僅需讀取查詢所需的列,其垂直分區策略不僅能夠支援大量的使用者、大規模資料,還可以提交對商業資訊的高速訪問, 其速度可達到傳統的關聯式資料庫的百倍甚至千倍。 「隨著 Sybase IQ 不斷地在分析應用 POC 測試中拔得頭籌,有時甚至超過其他對手 100 倍之多」, Gartner 評價道,「 Sybase IQ 逐漸成為從資料集市到企業資料倉儲架構最令人渴望的 DBMS (資料庫管理系統)。 」
自 2009 年推出以來, Sybase 陸續發佈了 Sybase IQ 15.1 、 15.2 、 15.3 以至最新的 Sybase IQ 15.4 版本,每個版本都著力于增加新的核心能力以促進更深入的高級分析。 Sybase IQ 15.4是面向大資料的高級分析平臺,將大資料轉變成可指揮每個人都行動的情報資訊,從而在整個企業的使用者和業務流程範圍內輕鬆具備大資料的分析能力。
因此,有人說Sybase IQ15.4正在徹底改變「大資料分析」。
企業名稱:惠普
網址:www.hp.com
上線時間:2011年
公司位址:美國加州帕羅奧多市
融資狀況:惠普業務
業務方向:面向各類企業市場
大資料時代來臨,老牌巨頭惠普也不甘落後。 不久前惠普企業服務事業部宣佈推出全新服務,説明客戶更快部署惠普子公司Vertica的Vertica Analytics Platform ,從而迅速洞悉關鍵的商務資訊,輔助決策過程。
Vertica Analytics Platform 讓使用者能夠大規模即時分析物理、虛擬和雲環境中的結構化、半結構化和非結構化資料,從而深入洞悉「大資料」。
Advanced Information Services for Vertica 説明客戶最大化實現 Vertica 分析平臺性能,並構建企業分析專用環境。 惠普提供從評估到實施的一系列服務,與客戶共同定義多種交付方式組合,並找出匹配其現有基礎設施的最佳解決方案。
Advanced Information Services for Vertica已在全球上市,將為實現「瞬捷」企業構建靈活的智慧環境。
企業名稱:沃爾瑪
網址:HTTP://www.walmart.com/
上線時間:2011年
公司位址:本頓維爾
融資狀況:沃爾瑪業務
業務方向:未知
在這裡看到沃爾瑪的身影,可能很多人會有疑問,全球最大的傳統零售業巨頭沃爾瑪怎麼就跟大資料扯上關係了?看了下面的介紹你就會明白了。
沃爾瑪是最早通過利用大資料而受益的企業之一,曾經擁有世界上最大的資料倉儲系統。 通過對消費者的購物行為等非結構化資料進行分析,沃爾瑪成為最瞭解顧客購物習慣的零售商,並創造了「啤酒與尿布」的經典商業案例。 早在2007年,沃爾瑪就已建立了一個超大的資料中心,其存儲能力高達4Pb以上。 《經濟學人》在2010年的一篇報導中指出,沃爾瑪的資料量已經是美國國會圖書館的167倍。
沃爾瑪實驗室計畫將沃爾瑪的10個不同的網站整合成一個,同時將一個10個節點的Hadoop集群擴展到250個節點的Hadoop集群。 目前實驗室正在設計幾個能將當前像Oracle、Neteeza這樣的開放資源的資料庫進行遷移、整合的工具。
沃爾瑪曾進行了一些列的收購,包括Kosmix(沃爾瑪實驗室前身)、Small Society、Set Direction、OneRiot、Social Calenda、Grabble等多家中小型創業公司, 這些創業公司要麼精于資料採礦和各種演算法,要麼在移動社交領域有其專長,從此我們就可以看出沃爾瑪進軍移動互聯網和挖掘大資料的決心。 相信在沃爾瑪的帶領下,傳統行業也會慢慢意識到大資料的重要性,加速步入大資料時代。
初創企業:
除了這些傳統的大企業已經開始進入大資料領域之外,還有不少的創業企業也瞄準了大資料帶來的機會,紛紛推出自己的產品,以期抓住大資料時代的機會。
企業名稱:Clustrix
網址:www.clustrix.com
創辦時間:2005年
公司位址:美國加州三藩市
融資狀況:1200萬美元
業務方向:面向各類企業市場等
Clustrix
Clustrix創立于2005年,是Y Combinator 2006年冬季班的成員。 Clustrix可以為SQL資料庫提供專利資料應用方法,説明人們處理大量的資料,使SQL資料庫無限擴容成為可能。 最近Clustrix從Sequoia Capital、USVP和 ATA Ventures三家風險投資公司處再次獲得價值675萬美元的風險投資,至今已獲融資1200萬美元。 Clustrix總部設在美國三藩市,研發中心設在西雅圖。 為打開歐洲市場,公司計畫將總部遷至荷蘭的阿姆斯特丹,並將于年底前在印度設立辦公室。
企業名稱:Cloudera
網址:HTTP://www.cloudera.com/
創辦時間:2009年
公司位址:美國加州帕洛阿爾托
融資狀況:4000萬美元
業務方向:面向各類企業市場等
Cloudera
Cloudera是一家專業從事基於Apache Hadoop的資料管理軟體銷售和服務的公司,總部位於加州帕洛阿爾托,2009年3月發佈了第一款商業產品,當時獲得由AccelPartners領投的500萬美元投資。 該公司于2010年6月正式推出Cloudera企業產品。 2011年11月募集到4000萬美元風險投資資金,此輪融資由風險投資機構Ignition Partners的合夥人弗蘭克·阿泰勒(Frank Artale)領投。 Cloudera之前的投資者頂尖風投機構Accel Partners、Greylock Partners、Meritech Capital Partners 和In-Q-Tel也參與本輪投資。
除以上企業以外,包括MapR、HStreaming、Hadapt、DataStax、Datameer這些與Hadoop以及大資料相關的新公司都已經獲得投資,新一輪熱潮正在興起。
看到以上這麼多的國外企業已經開始走上大資料之路,我們不禁想知道國內有哪些企業在大資料方面有所建樹,但遺憾的是,與國外大資料的熱火朝天相比,國內企業參與這一領域的並不多。
國內企業在資料庫、資料倉儲、商業智慧等領域基礎薄弱,IT尤其是軟體企業在佈局大資料方面,已經遠遠落後于國外先進企業。 對於哪些企業將來有可能成功進入大資料領域,挑起大資料利用國產化的重擔,不少人表示看好百度、阿裡巴巴、騰訊等國內互聯網巨頭,因為它們不僅具有資金、技術等方面的實力,而且一直在與資料打交道方面具有先發優勢, 其本身業務的發展趨勢與大資料發展趨勢相符。
實際上,作為中國最大的電子商務公司阿裡巴巴已經在利用大資料技術提供具體服務,主要內容就是阿裡信用貸款與淘寶資料魔方這兩部分業務。
以阿裡信用貸款為例,阿裡巴巴通過掌握的企業交易資料,借助大資料技術自動分析判定是否給予企業貸款,全程不會出現人工干預。 據透露,截至目前阿裡巴巴已經放貸300多億元,壞賬率約0.3%左右,大大低於商業銀行。
淘寶資料魔方則是淘寶平臺上的大資料應用方案。 通過這一服務,商家可以瞭解淘寶平臺上的行業宏觀情況、自己品牌的市場狀況、消費者行為情況等,並可以據此作出經營決策。
除了互聯網企業以外,也許還有一家不可忽略的企業極有可能在大資料領域異軍突起,那就是華為。 儘管華為公司在大資料領域一直保持低調狀態,但仍有相當一部分中國使用者期待華為產品和方案,這主要得益于多年來華為精心打造的「國產IT網路通信產品、方案領導者」的品牌形象。
近年來,尤其是進入2012年以來,大資料漸漸地開始成為一個人們耳熟能詳的術語。 有許多人認為2012年應該是大資料元年,更有甚者預測,下一個Facebook會誕生在大資料領域,不管這些看法有沒有道理,但至少我們可以看到大資料時代的帷幕已經開啟。