Hortonworks日前發佈了下一代Apache Hadoop的預覽發佈版。 Apache Hadoop承諾會擴大能夠在資料處理平臺上實施分析的種類範圍。
新的Apache YARN調度程式通過提供一個更通用的資源管理框架取代了MapReduce
Hortonworks創始人、開發Hadoop的核心工程師之一Arun Murthy稱:「Hadoop 2.0是一個基本的架構改變,使Hadoop的重要性超過了僅僅作為一個批次處理平臺。 這個更新的軟體將推動全新的一輪技術創新。
Hortonworks Data Platform 2.0 Community Preview(社區預覽版)包含許多用於Hadoop環境的新元件,最主要的是YARN(Yet Another Resource Negotiator, 另一種資源協調者)。 這是Hadoop的MapReduce工作調度程式的後續產品。
Murthy稱,Hadoop開始是作為一個「單個應用平臺」製作的,主要是根據提取和索引網站內容製作的。 機構現在正尋求把它用於其它工作,如互動查詢和即時傳輸資料的分析。
YARN通過擴大能夠在Hadoop平臺上做的工作種類改進了MapReduce。 MapReduce只能管理批量處理工作,在任何數量節點上執行資料分析,並且當完成之後返回結果。
相比之下,YARN是一種通用的資源管理框架。 YARN提供一種運行非批次處理工作的基礎,如無限期地運行即時資料流以及包含互動查詢的工作。 使用者可以在互動查詢中在移動中查詢資料。 Murthy表示,使用者現在可以批量處理MapReduce的工作和在執行TARN工作時進行互動的SQL查詢。
Hortonworks負責公司戰略的副總裁Shaun Connolly稱,使用YARN,你有一個熟悉所有不同類型的工作量和工作需求的集群。 因此,它們可以共存。 你不要讓一個工作占支配地位或者接管這個集群的所有資源。 以前,機構必須運行不同的集群以執行不同風格的任務。
HDP 2.0還包括許多新元件,包括一個加快大型和互動工作的YARN外掛程式Apache Tez和提供在一個Hadoop庫中運行SQL查詢能力的技術集。
HDP 2.0的這個預覽版是一個完整的Hadoop發佈版,可以在甲骨文VirtualBox或者VMware虛擬環境中運行。
Hortonworks本星期在加州聖約瑟舉行的2013年Hadoop峰會上發佈了HDP 2.0。 Rackspace在這個會議上宣佈它將提供Hadoop服務,其分析工具由Pentaho提供。 Splunk發佈一個名為Hunk工具,可查詢Hadoop庫。 資料倉儲系統供應商Teradata發佈了新的Hadoo應用。 VMware升級了vSphere虛擬化管理軟體以支援hadoop集群。