標籤:http 使用 strong 資料 2014 代碼
2004年Google發表了一篇非常具有影響力的論文向全世界介紹了MapReduce架構,該架構可以把一個應用程式分解為許多並行計算指令,跨大量的計算節點運行非常巨大的資料集。時至今日,MapReduce已經成為並行分散式運算領域的一個高度流行的基礎設施和編程模型,它是Apache Hadoop的基礎,被很多知名廠商所使用為其客戶提供優質的資料服務。但是從最近在San Francisco召開的Google I/O大會上獲悉Google已經拋棄了MapReduce架構轉而使用一個新的雲分析系統,它的名字叫做Cloud Dataflow。來自於Data Center Knowledge的Yevgeniy Sverdlik 就發表了一篇文章對此做了介紹,下面是編者按照其文章組織的一些內容。
Google之所以拋棄MapReduce的原因很可能是它已經難以處理Google目前所要分析的資料量了。Mountain View公司負責技術基礎設施的進階副總裁Urs Hölzle說:一旦資料量達到了PB級MapReduce就會變得難以處理。在San Francisco召開的Google I/O大會上Hölzle做了一個主題演講,他提到他們從幾年之前就已經不再使用MapReduce了。
對於Cloud Dataflow Google將會把它作為雲平台上的一個服務提供給開發人員,這些服務並沒有MapReduce那樣的擴充限制。Hölzle說“Cloud Dataflow是十多年分析經驗的結晶,它將比市面上任何其他的系統啟動並執行更快,擴充性也更好”。
“Cloud Dataflow是一個完全託管的服務,它能夠自動最佳化、部署、管理和擴充。它能夠讓開發人員很容易地使用統一的編程為批處理和流服務建立複雜的管道”Hölzle表示。
Google想到的這些所有的特性處理都無法在MapReduce上完成:它很難迅速地擷取資料,它需要很多不同的技術,批處理和流無關,同時還需要部署並營運MapReduce叢集。
Hölzle還在他的主題演講上展示了Google雲平台上的一些其他的新服務:
- Cloud Save是一個API,它使應用程式能夠將單個使用者的資料儲存在雲端或其他地方,同時使用它不需要任何伺服器端的編碼。 Google PaaS(提供App Engine)使用者和IaaS(提供Compute Engine)使用者都可以利用這個特性構建App。
- Cloud Debugging 讓開發人員能夠更容易地篩選出部署在雲端多台伺服器上的軟體代碼中的bug。
- Cloud Tracing 提供了不同組之間的延遲統計(例如資料庫服務調用的延遲)和分析報告。
- Cloud Monitoring 是一款智能監控系統,它是與Stackdriver(Google5月份收購的一個CloudMonitor初創公司)整合而產生的結果。該系統監控雲基礎設施資源,例如磁碟和虛擬機器,還有Google服務的服務等級以及十幾個非Google提供的開源軟體包。