依託雲計算,挖據大資料背後的價值

來源:互聯網
上載者:User
關鍵字 雲計算 大資料

雲計算是資訊技術發展和資訊社會需求到達一定階段的必然結果。 雲計算技術的創新帶動了新的商業模式的成功,對現有電子資訊產業及應用模式產生了 巨大的震動,有著深遠的影響.iDC預測,未來3年全球雲計算領域將有8000億美元的新業務收入。 整個「十二五」期間,我國雲計算領域的產業規模預計可 達7500~10000億元人民幣。 目前,全球各大IT廠商正競相進入雲計算領域,以佔據新一代資訊技術的制高點。

雲計算需避免兩大誤區

在政府和業界的雙重推動下,雲計算已經變得炙手可熱,成為新興產業中最熱門的領域。 這說明雲計算已經從「不知所云」到深入人心,同時也存在隱憂和困擾。 其中的問題主要體現在兩個方面:

一方面是對於「雲泡沫」的擔憂。 據有關調查,很多地方投鉅資建成了所謂的「雲」系統,但資源利用率卻不足20%,雲計算中心成了形象工程,甚至 成了變相的商業地產專案。 雲計算本身是一種綠色計算,不是比規模、比設備、比廠房,發展雲計算不能變成簡單的圈錢圈地,而要盡可能避免重複建設和資源浪 費,將雲計算產業落到實處,讓消費者受益于雲計算。 因此,雲計算的創新應用,是雲計算產業健康發展的試金石。

另一方面是雲計算被作為萬能包裝過度渲染,仿佛什麼都可以雲化,在互聯網上什麼都是雲計算,以至於消費者和投資者常常困擾于對真「雲」和假 「雲」的辨別。 雲計算的本質特徵是什麼? 首先,雲計算是一種基於互聯網、大眾參與的計算模式,雲計算的基本應用場景應該直接面向互聯網,所需要的資源不在 用戶端而是來自網路,即通過網路提供企業和個人所需要的計算力、存儲空間、軟體功能和資訊服務等;其次, 雲計算的服務一定具有較高的可伸縮能力,雲計算的 服務資源能夠隨著應用需求自動地動態調整,既能夠在幾分鐘甚至數秒之內,自動地增加服務資源的數量、提升服務能力來應對網路的尖峰流量,又能隨著應用的減 少,動態減少服務資源。

雲計算支撐大資料發展

大資料(Big Data)這個概念近年來在越來越多的場合被越來越多的人提及,並且經常是和雲計算聯繫在一起。 大資料無疑將給人類社會帶來巨大的價值,科研機構可以通過 大資料業務協助進行研究探索,如環境、資源、能源、氣象、航太、生命等領域的探索。 那麼雲計算和大資料之間到底是什麼關係呢? 概括而言,沒有互聯網就沒有 雲計算模式,沒有雲計算模式就沒有大資料處理技術。

然而,雲計算環境同樣對大資料處理技術提出了新的挑戰,這主要反映在傳統的關係資料庫不能滿足大資料處理的要求,比如海量使用者的高併發讀寫、海 量資料的高效存儲和訪問、系統的高可用性和高擴充性等。 為此,業界一些廠商先後研發了一批包含分散式資料緩存、分散式檔案系統、非關聯式資料庫和新關聯式 資料庫等新技術來解決上述問題。

同樣,由於海量資料的大資料量和分佈性的特點,使得傳統的資料處理技術不適合于處理海量資料。 這對海量資料的分散式並行處理技術提出了新的挑戰,開始出現以MapReduce為代表的一系列新處理技術,像資料並行處理技術、增量處理技術、流式計算技術等。

雲計算時代會有更多的資料存儲于計算中心。 資料是資產,雲是資料資產保管的場所和訪問的管道。 大資料的處理和分析必須依靠雲計算提供計算環境和 能力,挖掘出適合於特定場景和主題的有效資料集。 比如,《紐約時報》用雲計算轉換了1851年到1922年超過40萬張掃描的圖片,通過把任務分配給幾百 台電腦,這項工作在36個小時內就完成了;信用卡公司Visa計算兩年的紀錄,包括730億筆交易、高達36TB的資料, 處理時間用傳統方法需要1個月, 而採用基於Hadoop的處理技術只要13分鐘。

挖掘資料背後的價值

在互聯網時代,特別是進入移動互聯網時代後,人們只有通過資料採礦才能從海量的低價值密度的資料中發現其潛在價值。 移動互聯網時代的大資料挖 掘,主要是網路環境下的非結構化資料採礦,這些資料形態反映是鮮活的、碎片化的、異構的原生態資料。 這種非結構化資料有什麼特點呢? 它常常是低價值、異 構、冗余的資料,甚至有部分資料放在儲存體裡沒再用過。 與此同時,資料採礦關注的物件也發生了很大改變,挖掘關注的首先是小眾,只有先滿足小眾挖掘的需 求,才談得上滿足由更多小眾組成的大眾的需求,因此移動互聯網時代資料採礦的一個重要思想,就是「由下而上」勝過「由上而下」的頂層設計, 強調挖掘資料的 真實性、及時性,要發現關聯、發現異常、發現趨勢,並最終發現價值。

事實上,互聯網上交互的大眾,不僅在享受服務,也在提供資訊。 公眾的線上行為已經不能僅僅用流覽、搜索或挖掘來表徵,正在演化為迅速地創造內 容,湧現出群體智慧。 小眾的局部積聚特性又可以形成較大範圍的「大眾」特性,小眾成為大眾的基礎。 對公眾、大眾和小眾的認識為我們認知人類在不同尺度上的 所謂微觀、中觀或者宏觀的群體行為,為認知群體中的競爭與協作提供了機會。 因此人們在進行資料採礦的過程中要注重網路化大資料採礦的方法,也即社區與社區 發現。 例如,無線T恤公司(Threadless)是一個線上T恤零售商兼創作聚落,該網站透過使用者設計及使用者投票選出得票最高的T恤,讓消費者能夠分享 自行設計的T恤圖案的同時, 也讓獲勝者得到一定的酬金.threadless已經成為商業和社區模式雙贏的典範,每週都能收到800多個新的設計方案,每 天有超過1000名新註冊使用者來進行設計和藝術方面的討論,並根據設計方案所激發的靈感提交配套的音樂和視頻。

今天,互聯網頻寬正以每6個月翻一番的速度在發展,它比每9個月翻一番的存儲發展速度和每18個月翻一番的計算發展速度都要快,頻寬的迅猛發展讓人類進入了交互時代,而交互又帶動著計算和存儲加速前進。

大資料標誌一個新時代的到來,這個時代的特徵不只是追求豐富的物質資源,也不只是無所不在的互聯網帶來方便的多樣化的資訊服務,同時還包含區別于物質的資料資源的價值挖掘,以及價值轉換等等。 而大資料也將在雲計算技術等的支撐下發掘出更多的價值。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.