在上個月發佈的Apache Hadoop 2.2的基礎上,大資料應用程式平臺專家Concurrent今天推出了新版本的Cascading——其大資料應用框架。
Concurrent公司還推出了Cascading Lingual 1.0,這是提供全面ANSI SQL介面的開源專案。
Cascading是一個獨立的開源JAVA應用程式框架,它被設計作為MapReduce的替代API。 Cascading讓JAVA開發人員可以使用他們現有的技能在Hadoop上構建大資料應用程式。
Cascading創造者Concurrent公司創始人兼首席技術官Chris Wensel表示:「我創建Cascading完全是因為憤怒,在我使用MapReduce後,我發誓決不再使用它了。 」
這個最新版本Cascading 2.5增加了對Hadoop 2.2的支援,該版本包括Hadoop 2.2版本中引入的新的YARN架構。 Apache Hadoop YARN(另有一個資源管理器)作為Hadoop作業系統,利用單一用途資料平臺來進行批次處理,並將其發展成為多用途平臺—可進行批次處理、互動式、網路和流處理。
YARN作為存儲在Hadoop分散式檔案系統(HDFS)上資料的主要資源管理器以及訪問調解器,讓企業可以將資料存儲在一個地方,然後以多種方式與這些資料進行交互,具有一致的服務水準。
企業現在可以使用Cascading來利用針對單一大資料處理應用程式的JAVA、傳統SQL和預測建模投資。
Hadoop 2的遷移路徑
Concurrent公司首席執行官Gary Nakamura表示,Cascading並不專門利用YARN,但它可以讓使用者無縫地遷移其應用程式到Hadoop 2,並利用YARN。 Scalding、Cascalog和PyCascading等域特定語言(DSLs)也可以無縫地遷移到Hadoop 2。 同樣地,當Cascading位於Hadoop堆疊時,它將支援Apache Tez。
Concurrent還為複的連接操作提高了性能,並優化了動態分區,以及更有效地在HDFS上存儲經過處理的資料。
除了Cascading,Concurrent還宣佈Cascading Lingual 1.0開始發售,該產品能夠説明已經投入鉅資到商業智慧(BI)工具(例如Pentaho、Jaspersoft和Congnos) 以及培訓的企業快速訪問存儲在Hadoop上的資料。 Lingual允許使用者利用他們現有的SQL技能以及系統來在Hadoo上創建和運行應用程式。
Concurrent公司的Wensel表示,Lingual讓任何熟悉SQL的人可以立即利用其JDBC相容的BI或者首選桌面工具來訪問存儲在Hadoop上的工具。
亞馬遜雲計算服務亞馬遜彈性MapReduce(EMR)集團總經理Steve McPherson表示:「Cascading是大資料應用程式開發生態系統的重要元件,Lingual是讓其更容易構建大資料應用程式的另一個重要進展。 」
「現在,亞馬遜彈性MapReduce客戶可以利用Lingual來整合亞馬遜雲計算服務上不同的資料存儲與亞馬遜S3和Redshift等服務,並且,它們可以處理這些資料,並通過標準ANSI SQL命令將其存儲在亞馬遜EMR中, 」McPherson表示,「這讓客戶可以更容易的使用自己喜愛的BI工具來查詢資料。 」