劉煉攝/光明網資料圖片
世界正在步入IT革命和全球化的第二樂章—「雲時代」。 通過互聯網,資料中心的巨大計算和存儲功能像雲彩般覆蓋世界的每一個角落。 今天,無論是企業還是個人都可以超越國境便利和自由地利用高性能的雲計算系統,人類的生活、工作和創業環境驟然劇變。
—《步入雲時代》,周牧之
這是一個危機四伏的世界。 自2008年美國次貸危機之後,緊接著就是歐洲主權債務危機。 美國和歐洲兩大9374.html">世界經濟的領航者都在衰退的邊緣徘徊,亞洲的日本經濟形勢難言樂觀,可怕的是,人們根本看不到走出危機的出路。 金磚國家雖表現亮眼,但在全球一體化加速的情況下,卻也很難獨善其身。 全世界似乎都被一種悲觀的情緒所籠罩。 人們不禁要問,希望在哪裡?
其實,每一個體系,每一種模式,雖然都是抽象的概念,但也像具體的物品一樣,會耗損、退化。 縱觀歷史,這些陳舊的生活方式和生產方式,最終都逃脫不了被淘汰的命運。 真正帶來變革的總是科技的創新和發展。 這就意味著,人們面對危機時,最需要的是新的發展方向和動力,而不是在老化的零件上修修補補。 正如,騎馬橫亙歐亞大陸耗時太長,如果眼光總在換一匹更好的馬,或是讓現有的馬跑得更快,終究只是權益之計。 人類真正需要的,其實是現如今的汽車、高鐵、飛機。 而網際網路出現之後,人們如果只是想說話聊天,那麼連跨越大陸、海洋的必要性都沒有了,因為網路讓地理距離完全可以忽略不計。
現如今,最熱的話題就是雲計算和大資料。 人們對於這一變革的期待,完全可以媲美一次工業革命。 人們常常覺得科技高深莫測,離自己頗有距離,但是實際上,大資料的時代在悄然中已經滲透到我們生活的方方面面。 大資料最先被應用的領域,可能是消費領域,其次是電信。 電信服務商們在嘗試使用大資料,以期對它們資本設備的使用進行優化。
大資料的應用前景
大資料在消費領域已經深深紮根。 該領域首先使用大資料,因為大資料在這個領域的運用比較方便易行,不需要管制,而且消費者軟體比其他軟體的編寫也要快一些。 例如,你在亞馬遜上買書,亞馬遜就會根據其他購書者的評價來給你推薦另外的書籍。 在過去的幾年裡,正是消費者以及針對消費者的軟體引領了大資料產業的發展,人們自身的想法通過資料達到彼此融合。 遊戲公司創造各種各樣的虛擬產品,利用大資料來分析消費者對虛擬產品的購買情況。 舉個例子,遊戲公司以人們買了多少虛擬雨傘作函數,來判斷外面是不是在下雨。 從這裡可以看出,虛擬世界和真實世界之間有著十分有趣的聯繫。
運用大資料的領域可以涉及生活的方方面面。 通用電氣公司曾有一個產業互聯網設想,其中提到,怎麼連接各方,怎麼從噴氣發動機和汽車引擎中獲取資訊,以及怎麼確保這些大型產業系統運行最優化。 大資料在產業這裡的運用可能是更為重要。 同時,這一方面的運用真的能夠通過改變產品的本質和外觀,最終會改變世界。
通常來說,兩個飛機引擎在飛行的過程中能產生5T的資料。 如果系統能分析這些資訊,並在飛行員發現引擎溫度不對勁或者出現其他差錯之前,就將資訊傳遞給飛行員,告知他引擎的運行狀態,以及是否存在其他問題,那麼就能讓飛行安全得到進一步提高。 航行當中的所有資訊都能被適時告知非常的重要,它有時候能救人一命,這在空難多發的今天,特別有意義。 此外,在醫療保健領域,大資料能結合每個人不同的特性,説明打造更優的醫療方案。
資料過濾的重要性
資料很多,但無用的也很多。 要麼是沒有價值的,要麼就直接是錯誤的。 使用大資料的技術需要解決資料清理問題。 取用資料的第一件事情就是要清理資料。 甚至在將資料從資料來源中取出放入存儲地之前,要先確認你輸入的資料是有效的。 有時候,你要濾去5%的資料,有時候你甚至要忽略掉95%的資料,因為資料實在是太龐雜了。 人們不應該存儲你不需要的資料,那樣做很浪費。 現在的技術可以説明你將一件事情分成多步,使人們可以在存儲和加工前,去除許多你不需要的資料。
許多企業都希望能躋身于大資料的變革中來。 許多人認為他們需要做的,就是取用他們能獲取的所有資料。 這其實是不經濟的,因為資料量實在太大了。 所以,需要更明確自身的需求。 就像你在烘焙蛋糕一樣,你可能想把各種佐料都加進去,但是你不會在裡面放紅辣椒,因為這和烘焙蛋糕不相關。 所以,要以大資料為基礎解決問題,你就會希望去除不相關的資料,而把精力集中在那些有價值的資料上。
大資料對運算的挑戰
關於大資料有一個很有趣的地方。 「大資料」這個名字來源於兩個方面。 一方面是源于資料繁多,也就是我們為什麼稱之為大資料。 另一方面是源于資料的無序性。 過去,電腦只能處理以一種形式輸入的資料。 當你輸入的資料形式不對時,你要去重新調整它。 大資料的本質就是能處理那些並非必要的資料。 自從人們和企業開始處理非結構化的資料,他們就發明出了新的技術工具,比如說分散式運算。 這些新的技術工具使得人們可以將資料以非結構化的形式儲存。
因為資料繁多,你不能總是帶著一台主機,或者通過一台超級電腦來流覽這些資料。 你要做的是,將大問題化解成一系列的小問題,然後採用更加高效的運算體系來一一破解這些小問題。 這就是「並行運算」。 事實上,如果你去一趟谷歌的資料中心,你甚至看不見一台主機,你看到的是許許多多的,和你的電腦一樣的主機板。 目前正在探索的領域是:將大問題拆解成小問題一一解決之後,再把結果合併在一起的能力。
雲計算的未來
現在有許多關於利用大資料的設想和大計畫,但是為了實現這些,首先需要大運算。 問題的關鍵在於,怎樣才能構建一個比70年代造出的電腦還要高效得多的運算系統呢? 人們通過雲計算來實現大運算。 雲計算使得哪怕憑藉很便宜的元件,也能夠集合無窮大的處理能力。 人們不再需要購買一個新的主機板,因為一個資料中心或在多個資料中心的所有電腦都可以在雲端為我所用。 你想要多少處理能力,可以獲取多少,突然之間,你要應付成千上萬的硬碟和主機板。 當你不再需要這些處理能力的時候,你就把它們放回原處。 雲中心在不停運轉。 確保這一運轉是順暢的就很重要,而這也是新技術的研究發展方向。
如果每個人都開始依賴這個體系,那麼就需要保證具備足夠的處理能力。 就好比,在炎熱的夏天,人們需要保證全市所有空調系統的電力供給。 一旦出現意外,導致大家都不能使用空調,則是人們都不願意看到的結果。 在電腦運作中,效用計算就是這種「供給」。 公共能源企業為我們提供電力、水和其他能源,而雲計算企業為我們提供計算能力。 過去,如果一家公司想要一個大型軟體,就需要購買成噸的伺服器。 今天,人們並不需要購買那麼多的伺服器了,因為可以租用,或是從運算服務的公司購買虛擬伺服器。
大資料與駭客
每個人都擔心網站駭客,害怕資料洩露。 想像一下,如果有網路駭客攻擊了北京電網,不管是出於惡作劇還是出於恐怖襲擊的目的,他們都可以使得北京的電力系統陷入崩潰。
資料安全領域,實際上是一個硝煙彌漫的戰場,但人們卻並不一定清楚。 在這個戰場上,有努力保護資料安全的好人,也有駭客和企圖闖入資料系統進行破壞的壞人。 道高一尺,魔高一丈,這是一個無休止的問題。 科技企業要先人一步,確保所掌握的技術比想要破壞資料的駭客和軟體恐怖分子領先。 儘管目前存在許多種闖入電腦系統的方式,但是在系統真正受到侵害時,人們要確保有所察覺。 以前病毒是這種危害唯一的來源,但不幸的是,目前這樣的來源很多。
在衡量資料遭侵害的風險和資料帶來的效用孰輕孰重時,總體而言,好的方面占上風。 人們要做的只是確保對資料採取保護措施了。 電子銀行是一個經典的例子。 這想起來其實挺可怕的,因為人們也可能闖入你的電子銀行,偷走你的錢財。 但是,你的生活現在能離得開電子銀行嗎? 現在,我們考慮走回頭路已經為時過晚,我們已經做不到了。 你也不希望在馬路上發生車禍,但是你更不願意放棄開車。 所以,這個產業最終會創造出許許多多的產品,來確保資料不受侵害,並保證各方面的安全。