大資料處理三大瓶頸:大容量、多格式和速度

來源:互聯網
上載者:User

導讀:Yahoo CTO Raymie Stata是領導海量資料分析引擎的關鍵人物。 IBM和Hadoop將更多的精力專注在海量資料上,海量資料正在潛移默化的改變企業和IT部門。

越來越多的大企業的資料集以及創建需要的一切技術,包括存儲、網路、分析、歸檔和檢索等,這些被認為是海量資料。 這些大量資訊直接推動了存儲、伺服器以及安全的發展。 同時也是給IT部門帶來了一系列必須解決的問題。

資訊技術研究和分析的公司Gartner認為海量資料處理應該是將大量的不同種類以及結構化和非結構化的資料通過網路彙集到處理器和存放裝置之中,並伴隨著將這些資料轉換為企業的商業報告。

海量資料處理的三個主要因素:大容量資料、多格式資料和速度

大容量資料(TB級、PB級甚至EB級):人們和機器製造的越來越多的業務資料對IT系統帶來了更大的挑戰,資料的存儲和安全以及在未來訪問和使用這些資料已成為難點。

多格式資料:海量資料包括了越來越多不同格式的資料,這些不同格式的資料也需要不同的處理方法。 從簡單的電子郵件、資料日誌和信用卡記錄,再到儀器收集到的科學研究資料、醫療資料、財務資料以及豐富的媒體資料(包括照片、音樂、視頻等)。

速度:速度是指資料從端點移動到處理器和存儲的速度。

Kusnetzky集團的分析師Dan Kusnetzky在其博客表示「簡單的說,大資料是指允許組織創建、操作和管理的龐大的資料集和存儲設施工具」。 這是否意味著將來將會出現比TB和PB更大的資料集嗎? 供應商給出的回應是「會出現」。

他們也許會說「你需要我們的產品來管理和組織利用大規模的資料,只是想想繁雜大量的維護動態資料集帶來的麻煩就使人們頭疼「。 此外海量資料的另外一個價值是它可以説明企業在適當的時機作出正確決策。

從歷史上看,資料分析軟體面對當今的海量資料已顯得力不從心,這種局面正在悄然轉變。 新的海量資料分析引擎已經出現。 如Apache的Hadoop、LexisNexis的HPCC系統和1010data(託管、海量資料分析的平臺供應商)的以雲計算為基礎的分析服務。

101data的高級副總裁Tim Negris表示海量資料的收集以及存放和利用海量資料實際上完全是兩回事。 在做任何事前需要大量(準備資料)的工作是像Oracle和大多數資料庫廠商所面臨的難題之一。 我們正是要消除這個難題,並把資料直接交到分析師的手中。 Hadoop和HPCC系統做到了這一點。 這三個平臺都著眼于海量資料並提供支援。

開源的Hadoop已經在過去5年之中證明了自己是市場中最成功的資料處理平臺。 目前Cloudera的首席執行官和Apache基金會的Doug Cutting是Hadoop的創始人,他曾在Yahoo工作過。

Hadoop將海量資料分解成較小的更易訪問的批量資料並分發到多台伺服器來分析(敏捷是一個重要的屬性,就像你更容易消化被切成小塊的食物)Hadoop再處理查詢。

「Gartner和IDC的分析師認為海量資料的處理速度和處理各種資料的能力都是Hadoop吸引人們的地方」。 Cloudera的產品副總裁Charles Zedlewski說到。

在Cutting和他的Yahoo團隊提出Hadoop專案之後,在Yahoo IT系統測試並廣泛使用了很多年。 隨後他們將Hadoop發佈到開源社區,這使得Hadoop逐漸產品化。

在Cutting和Yahoo在開發、測試並內部運行代碼時,他們瞭解到使用起來還是很複雜的。 這導致他們馬上意識到如果在未來提供周邊服務(例如提供直觀的使用者介面、定制部署和附加功能軟體)可賺取更多的資金。

在2009年Cloudera作為一家獨立公司開始運營,公司產品採用開源並產品化Hadoop分析引擎和Cloudera企業版(Cloudera Enterprise整合了更多的工具,包括Hive、HBase、Sqoop、 Oozie、Flume、Avro、Zookeeper、Pig和Cloudera Desktop)。

Cloudera得到了大量投資者的青睞,這其中包括VMware的創始人和前首席執行官Diane Greene、Flickr的聯合創始人Caterina Fake、MySQL前首席執行官Marten Mickos、 Linkedln總裁Jeff Weiner和Facebook CFO Gideon Yu。

自從Cloudera成立以來,只有少數的頂級公司和初創公司免費提供他們基於Hadoop開放原始碼架構製作的自己的版本。

這是一場真正的企業科技的競爭。 就像在一場接力賽中,所有選手都必須使用同一種類型的接力棒(Hadoop的代碼)。 企業競爭主要集中在處理資料的速度、敏捷性和創造性上。 這場競爭是迫使大多數企業在海量資料分析市場有所作為最有效的方法。

IBM提供了基於Hadoop的InfoSphere BigInsights(IBM InfoSphere BigInsights 是用於分析和虛擬化海量資料的軟體和服務,這款新產品由 Apache Hadoop 提供技術支援。 )基本版和企業版。 但公司有更大的計畫。

IBM CEO Sam Palmisano表示IBM正在將新一代資料分析作為公司的研發重點,IBM在此專案上投資了1億美元。 IBM院士和電腦科學研究室主任Laura Haas表示IBM實驗室的研究遠遠超出了海量資料的範圍,並已經著手」Exadata「分析研究。 Watson就是IBM在資料海量資料研究的成果,Watson將用於更多用途,包括衛生保健、科學研究等。

其他Hadoop版本

MapR發佈了一個分散式檔案系統和MapReduce引擎,MapR還與存儲和安全的領導廠商EMC合作向客戶提供了Greenplum HD企業版Hadoop存儲元件 。 EMC Hadoop的另一個獨特之處在于它沒有採用官方版本的Apache代碼,而是採用Facebook的Hadoop代碼,後者在可擴充性和多網站部署上進行了優化。

另一家廠商 Platform Computing,Platform提供了與Apache Hadoop MapReduce程式設計模型完全相容的分散式分析平臺,並支援多種分散式檔案系統。

SGI(Silicon Graphics International )提供基於SGI Rackable和CloudRack伺服器產品實施服務的Hadoop優化解決方案。

戴爾也開始出售預裝該開源資料處理平臺的伺服器。 該產品成本隨支援選項不同而異,基礎配置價格在11.8萬美元至12.4萬美元之間,包含為期一年的Cloudera支援和更新,6個PowerEdge C2100伺服器(2個管理節點,1個邊緣節點和3個從站節點, 以及6個戴爾PowerConnect 6248交換器)。

替代品浮出水面。 包括1010data的雲服務、LexusNexis公司的Risk,該系統在10年間説明LexusNexis公司分析大量的客戶資料,並在金融業和其他重要的行業中應用。 LexusNexis最近還宣佈要在開源社區分享其核心技術以替代Hadoop。 LexisNexis公司發佈一款開源的資料處理方案,該技術被稱為HPCC系統。

HPCC可以管理、排序並可在幾秒鐘內分上億條記錄。 HPCC提供兩種資料處理和服務的方式——Thor Data Refinery Cluster和Roxy Rapid Data Delivery Cluster。 Escalante表示如此命名是因為其能像Thor(北歐神話中司雷、戰爭及農業的神)一樣解決困難的問題,Thor主要用來分析和索引大量的Hadoop資料。 而Roxy則更像一個傳統的關聯式資料庫或資料倉儲,甚至還可以處理Web前端的服務。

LexisNexis CEO James Peck表示我們認為在當下這樣的舉動是對的,同時我們相信HPCC系統會將海量資料處理提升到更高高度。

在2011年6月Yahoo和矽谷風險投資公司Benchmark Capital週二聯合宣佈,他們將聯合成立一家名為Hortonworks的新公司,接管被廣泛應用的資料分析軟體Hadoop的開發工作。

據一些前Yahoo員工透露,從商業角度來看Hortonworks將保持獨立運營,併發展其自身的商業版。

在轉型時期,Yahoo CTO Raymie Stata成為關鍵人物,他將負責公司所有IT專案的發展。 Stata表示相對於Yahoo,在Hortonworks我們會投入更多的精力在Hadoop的工作和相關技術上,我們認為應加大對Hadoop的投資。 我們會將一些關鍵人員指派到Hortonworks公司,但這既不是裁員也不是分拆。 這是在加大對Hadoop的投入。 Yahoo將繼續為Hadoop的發展做出更大的貢獻。

Stata解釋說,Yahoo一直有一個夢想,就是將Hadoop變為大資料分析軟體的行業標準。 但是這必須將Hadoop商業化。 Stata表示創建Hortonworks的主要原因是因為Yahoo已經看到了未來企業分析(感謝Hadoop 6年以來的發展)的未來,並知道該怎樣去做。 我們看到海量資料分析將很快成為企業非常普遍的需求。

我們將Hadoop部署在企業之中,我不認為所有人都否定這樣的解決方案。 我們要通過Hadoop為我們的股東創造價值。 如果某一天Hadoop成為海量資料處理的行業標準,這將是對我們最好的獎賞。

(責任編輯:admin)

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.