大資料初創企業WibiData準備把Hadoop封裝成一個特定的軟體集合資料包,這也許將開闢一個新的Hadoop征程。 這家公司的聯合創始人同時也締造了「大名鼎鼎」的Cloudera,而且該公司獲得了谷歌董事長施密特的兩次青睞。
WibiData這家初創公司也許「名不見經傳」,但是這家公司的聯合創始人Christophe Bisciglia和Aaron Kimball同時也締造了Cloudera,這家成立于2008年的公司在大資料領域絕對可以算得上「 大名鼎鼎」了。 在2012年,Cloudera還獲得了6500萬美元E輪融資,這也是 2012年大資料領域融資的No.1。
其實WibiData在創立初期,並沒有什麼宏偉的戰略規劃,僅僅是想成為第一個提供基於Hadoop商業應用套件的軟體供應商(即使不是第一,也應該是之一)。 在今年5月份,WibiData宣佈獲得了1500萬美元的B輪融資,該輪融資由Canaan Partners領投,原有的投資者NEA以及谷歌董事長埃裡克·施密特也有參投,共同助力WibiData完成這一宏偉的目標。
言歸正傳,現在Hadoop的市場也是「炙手可熱」,很多公司也是雄心勃勃準備大幹一場,但是昂貴的諮詢費用,同時還要為特定目標開發不同應用的要求,阻擋了大多數創新企業的腳步。 甚至導致了很多企業已經不能局限于從非結構化資料轉向到了結構化資料(常常被稱之為ETL)或者執行一些後端的分析工作。 實際上,WibiData已經投入了18個月的時間在做這件事情。 Bisciglia表示,Hadoop領域三大巨頭(Cloudera、Hortonworks以及MapR基本上已經壟斷了全部的市場份額。
家庭能源管理初創公司Opower就是一個很好的使用者案例。 這家公司原本是Cloudera的老牌客戶,但是「當Opower想使用SaaS工具超越批量分析和 ETL工作負載時,」Bisciglia表示,Opower就不得不尋求WibiData的説明。 原來Opower的服務只能專注于分析使用者夜間的能源使用資料情況,現在完全可以動態地向使用者進行推薦,在使用者和應用之間構建一種全新的連絡方式。
WibiData的系統架構
WibiData已經構建了自己的核心技術架構,將後端的Hadoop環境與面向客戶的預測性應用連接到一起,包括HBase資料集,資料格式化工具以及機器學習演算法。 WibiData還創建了一個開源的專案稱之為 Kiji。
Kiji開源專案
WibiData創建 開源專案Kiji是為了提供一個構建大資料應用的框架。 Kiji的核心模組是KijiSchema,它提供了一個簡單的JAVA API,通過Avro存儲系列化來存儲和管理HBase中類型化的資料。 就像是構建在HBase上的一層Wrapper,基本上目的是讓應用程式的編寫者能更容易的用HBase管理結構化的資料,而不是作為一個扁平的表使用。
kiji的基本操作包括KijiTable的創建修改,以及Entity資料的讀寫。 其操作的流程步驟和HBase的比較相似,也有許多對應的概念物件如Configuration/Admin/Table等。
總體來說,Kiji基本上就是對HBase應用模式的一個封裝,用Avro來承載物件化的資料,方便Schema的演化。 從資料的角度加強物件導向程式設計的概念(相對Hbase Table)。 面對的是希望能使用HBase存儲資料,快速上手開發應用的使用者。 ( 資訊來源於CSDN博客)
Bisciglia表示,WibiData近期將重點關注金融和零售這兩個行業內的發展。 他預期未來成型的產品將包括資料格式化的預定義模式以及預製的預測模型,這兩個產品主要面向廣義的行業客戶,而不是專門針對個人使用者。 WibiData也將為不同類型的使用者(像資料科學家,系統工程師以及商業使用者)提供不同種類的介面,他們可以通過自己特有的方式來跟資料進行交互。
時間會告訴我們一切,如果WibiData可以真正實現其目標,可以把Hadoop專門封裝成一個特定的軟體集合資料包,這將會一個新的里程碑。 即使是像Cloudera這樣的行業巨頭也看到了這些需求,但是它們滿手的業務都是將Hadoop集成到現有環境中,以便儘早的進行使用和運行。 Cloudera公司的CEO Mike Olson曾表示,「如果誰有雄心來解決Hadoop與應用之間的銜接問題,給我打電話,我馬上就給資金,這筆錢隨時放在那裡!