最近去武漢參加第八屆全國測試學術會議,包括硬體測試、HTTP://www.aliyun.com/zixun/aggregation/10185.html">軟體測試,碰到許多老朋友和新朋友,大家議論了許多。 我和大家交流了在CACM上看到的「Big data meets big science」,也頗有感觸。
在斯坦福的國家加速器實驗室,大氣觀測望遠鏡到2020年要安裝一個32億圖元(3.2GP)的觀景窗,10年以後每晚每隔15秒攝取極高解析度的天空圖像。 該系統需要存儲10億億位元組(100PB)的資料,相當於2000萬個DVD。 當然,通過這個觀景窗獲得的原始資料比這還要多得多。 這個觀景窗的視野裡面有400億~500億天文目標。 長久存儲這些圖元幾乎是不可能的,只能即時處理和提取關鍵資料。 大型科學儀器,從大型強子碰撞型加速裝置到高級光束處理器和分子成像工具產生大量資料,是目前的並行超級電腦所無法處理的。
可目前看到的現實是:1.摩爾定律已經失效,因為電晶體尺寸已經達到物理極限。 2.超級電腦已經不能再這樣用CPU堆下去了。 成千上萬,甚至幾十萬的CPU、GPU堆起來的超級電腦,耗電驚人,而平行計算實際上很難實現。 大部分時間,CPU閑著,而Memory忙得要命。 3.馮·諾伊曼電腦體系結構非改不可了。 存儲—計算的方式已經不適用新情況。 對於許多應用來說,實際的瓶頸不是處理時間,而是需要不斷地存取儲存體。
一個明顯的事實是,雖然我國的天河超級電腦幾次排名世界第一,但美國最近基本不參與這個排名的競爭,排第幾也不關心了。
對於大資料的問題,怎麼解決?科學家們主要採取三個途徑:一個是從觀測開始各環節設法減小資料集;一個是從私人企業學習基於雲計算的經驗;另一個是探索新技術,譬如量子計算。
量子計算對於破解密碼、因數分解、量子物理類比可能很有效,但是,對組合優化、航空調度、絕熱演算法是否有效,還很難說。 所以,大科學產生大資料,大資料技術要靠大科學。 物理學、光學、生物學、計算科學一起來,研究這些資料的收集、分發、存儲、處理。 不能單靠電腦。 我曾撰文說:大資料技術靠電腦,大資料分析要靠各領域的專家,現在看來,大資料技術也要靠大科學的專家。
在這樣一個創新的關鍵時刻,中國人應該有所作為。 不要天天想著發 SCI、投CNS、提職稱、發牢騷,想想這些大問題吧!但是,我跟與會的朋友們說,不管電腦怎麼變,容錯計算是一個永恆的主題,在量子計算中,人們也在密切關注容錯計算。 高端容錯電腦的實用價值就更不用說了,大家都懂得。
我想補充幾句話:微納電子產業現在還很興旺,市場仍然很大;超級電腦,特別是其應用還是要搞,從科學研究的角度講要有些前瞻性