Hadoop for .NET Developers,hadoopdevelopers

來源:互聯網
上載者:User

Hadoop for .NET Developers,hadoopdevelopers
Hadoop for .NET Developers(一):理解Hadoop

這些年來,大資料已經成為分析業界的興奮源頭。對於這個部落格系列的目的,我將鬆散定義這個術語指的重點是從資料核心業務系統裡資料來源的擴張 - 傳統商業智慧的範疇 - 包括新的(無論是在曆史上被忽視或新的可用)資料來源。

這是一屆大資料的一個粗略的簡化,但它固有的與已推動通過新的資料平台,這些新的資料工作的挑戰。當我們的注意力是在Hadoop的,最廣泛的認可,這些新的資料平台,大資料的這樣一個有限的定義似乎就夠了。

Hadoop是一個彈性的,分布式的,無模式的資料處理平台,是理想的,你有大量的資料集,單記錄含有少量值,如記錄檔,因為它提供了一個低的投入來進行資料訪問的解決方案。這也是對需要複雜分析和解釋複雜資料一個良好的平台,例如XML或JSON文檔,影像檔等,和/或可能受到可變的解釋,例如客戶推文(在JSON檔案)。

此外,當你需要大規模的可擴充性超出了可以實現與傳統的關係型資料庫平台,Hadoop是一個絕佳平台。話雖如此,我沒有找到這最後的方案是適用於我的許多客戶(雖然它是適用於一些)。對於我工作以及絕大多數的人,Hadoop的靈活性和經濟性往往是來探索這個平台最令人信服的理由。

Hadoop for .NET Developers(二):基礎架構

Hadoop是一組相互關聯的項目組件的實現。核心組件是MapReduce的,用於處理作業的執行,和一個儲存層,通常被實現作為HadoopDistributed File System(HDFS)。對於這篇文章的目的,我們將假定HDFS正在使用中。

Hadoop的組件是通過一系列被稱為資料(或計算)節點的伺服器來實現。這些節點是資料被儲存和處理的地方。

的名稱的節點伺服器保留在環境中的資料節點,其資料被儲存哪個節點上的軌道,並提供了資料的節點為一個單一實體。這種奇異表示被稱為一個簇。如果你所熟悉的RDBMS實現術語叢集,請注意,不一定任何共用儲存或節點之間的其他資源。 Hadoop叢集是純粹的邏輯。

著作權聲明:本文為博主原創文章,未經博主允許不得轉載。

相關文章

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.