hadoop來了,你準備好了嗎

來源:互聯網
上載者:User
關鍵字 nbsp; 大資料 磁片 就是
hadoop來了,你準備好了嗎 博客分類: 轉載 hadoop資料分散式開發框架 

轉載自IT學習社區:HTTP://bbs.itcast.cn/forum-122-1.html

現在有一台筆記本,配置是酷睿i5、4G記憶體、500G硬碟。 很難想像自己的第一台電腦的配置是奔騰3、512M記憶體、20G硬碟。 那時候,自己的20G 硬碟還有很多空閒。 現在,各種軟體、電影、音樂、教學視頻讓500G的硬碟空間也裝不下了。 互聯網的發展,產生的資料越來越多,不僅包括結構化的可以存儲 在資料庫中的資料,也包括網頁、電子郵件、短信、微博、日誌等半結構化、非結構化的資料。 互聯網上,每天推特發佈消息約3.4億條,新浪微博使用者發博量超 過1億條,百度大約要處理數十億次搜索請求,淘寶網站的交易達數千萬筆,聯通的使用者上網記錄一天達到10TB(1TB=1024GB)。 這一切表明,大數 據時代已經到來!

    什麼是大資料哪? 看一下大資料的4V特點吧。     Volume容量大。 只有幾(十)GB的資料不能稱為大資料,這樣的資料在傳統的RDBMS中就可以處理。 當資料達到幾百GB,甚至TB級別時,RDBMS甚至資料倉儲就處理不了了。 這就是大資料。     Variety 類型多樣。 資料的異構(不同的資料結構)、多樣也是大資料的特點,比如日誌、文本、word、pdf、ppt、excel、jpg、gif、avi等各種圖、文、音訊、視頻檔。 這些檔案類型是傳統的RDBMS處理不了的,也沒有辦法檢索、分析。     Velocity 訪問迅速。 資料是企業的命脈,資料必須被快速處理,這正是傳統的RDBMS的優勢所在。 但是在海量資料面前,RDBMS就無能為力了。     Value 價值密度低。 最有價值的資料已經被轉換處理為結構化資料,存儲在資料庫、資料倉儲中。 對於海量的價值密度低的大資料,向來不是資料庫關注的物件。 但是海量 的大資料並不是沒有價值的,比如長尾理論、「啤酒與尿布」,都是基於大資料產生的商業價值。 因此提煉大資料中的商業價值是一個企業新的增長點,被越來越多 的企業重視。     上面的4V帶來了大資料的難以存儲、難以管理、難以利用的難題。 怎麼辦? hadoop出場了!     資料是存儲在磁片介質中的,海量的資料必然存儲在海量的磁片中。 這麼多的磁片已經超出了Windows、Linux等作業系統的檔管理能力,因此產生了分散式的檔管理系統,即DFS(Distributed File System)。 分散式檔管理系統是用來管理分佈在眾多磁片中的資料。 分散式檔案系統需要考慮分散式的讀、寫、檢索、資料一致性、磁片故障、冗余等問題。 hadoop的hdfs就是一個分散式的dfs,專門用於在分散的磁片中存儲海量資料。     資料被存儲,那是檔案館幹的事情,這可不是企業想幹的事情。 資料只有被利用,產生出商業價值才是有意義的。 那麼就需要對大資料進行檢索、查詢,做各種變 換,這統統稱之為「計算」。 最常見的計算就是去重、排序。 有人想,這有什麼難事,找台高性能的伺服器跑就行了。 其實沒那麼簡單,因為磁片的定址時間、磁片 I/O、網路I/O,相對于大資料而言,是非常大的開銷。 我們想了個辦法:把海量資料分成小塊,讓一台機器處理一小塊資料,所有的機器同時工作。 最後把結 果匯總起來。 這就是「平行計算」。 hadoop中的MapReduce就是專門用來做分散式運算的並行處理框架。 hadoop就是用來解決大資料的存儲和計算的。     現在,國際互聯網巨頭,如谷歌、雅虎、推特、臉譜等都已經使用大資料。 其中谷歌就是鼻祖。 在國內,hadoop的應用也越來越多,互聯網公司如百度、淘寶、騰訊、新浪、搜狐早在多年前就已經在處理大資料。 傳統的行業,如電信、金融、銀行等也開始重視大資料的商業價值。     這麼多的企業在使用大資料,那麼對大資料人才的渴求越來越強烈,但是懂hadoop的人才卻非常少。 因此這類人的薪水是相當高的。





    下圖是在前程無憂招聘網站查詢hadoop職位時得到的搜尋結果,可以看到大部分職位的月薪都在10k以上。 月薪超過20k的職位也有很大比重。


    上圖是對查詢結果的一個截圖,可以看到hadoop工程師的待遇還是很高的,幾乎都在年薪20W以上。





    在hadoop人才稀缺的時候,你掌握了這門技術,想一想那是什麼結果?


相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.