瞭解Hadoop和大資料

來源:互聯網
上載者:User

標籤:

1. 情境:

   現在人產生資料越來越快,機器則更快,所以需要另外的一種處理資料的方法。
   硬碟容量增加,但是效能沒跟上,解決辦法是將資料分到多塊硬碟,然後同時讀取。

   問題:
     硬體問題 -- 複製資料  解決(RAID)
     分析需要從不同的硬碟讀取的資料:  MapReduce

  Hadoop: 
      1) 可靠的共用儲存(分布式儲存)
      2) 抽象的分析介面(分布式分析)

 

2. 大資料
    -- 可以理解為不能使用一台機器處理的資料

   大資料的核心是樣本 = 總體

   特性:  大量性   快速性   多樣性  易變性  準確性   複雜性 

   關鍵技術: 
    1) 資料分布在多台機器
         -- 可靠性: 每個資料區塊都複製到多個節點
             效能: 多個節點同時處理資料
    2) 計算隨資料走
       網路IO速度<<本地磁碟速度,大資料系統會盡量地將任務分配到離資料最近的機器上運行
       (程式運行時,將程式及其依賴包都複製到資料所在的機器運行)
       代碼向資料移轉,避免大規模資料時,造成大量資料移轉的情況,盡量讓一段資料的計算髮生在同一台機器上
    3) 串列IO取代隨機IO
       傳輸時間<<尋道時間,一般資料寫入後不再修改

** 大資料主要解決的是資料比較多,所以存放到多台機器上,那麼需要關注資料存放區的問題,以及資料的安全保障,還有資料的計算問題,計算的效能;

3. Hadoop

    Hadoop高容錯、高可靠性、高擴充性,特別適合寫一次,讀多次的情境。

    適合:
        大規模資料
        流式資料(寫一次,讀多次)
        商用硬體(一般硬體)

   不適合:
       低延遲的資料訪問
       大量的小檔案
       頻繁修改檔案(基本就是寫1次)

** 4. Hadoop架構

      

       HDFS: 分布式檔案儲存體
       YARN:分布式資源管理
       MapReduce:分散式運算
       Others:利用YARN的資源管理功能實現其他的資料處理方式

內部各個節點基本都是採用Master-Woker架構

 

 

        

瞭解Hadoop和大資料

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.