超級人工智慧：大資料的未來？

最後更新：2014-12-18 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

在百度大資料開放大會上，搞電腦學術理論的懷進鵬校長的演講猶如給所有聽眾的一記悶棍，懷校長的學術演講把大家弄得雲裡霧裡，把所有人弄暈了，現場能夠聽懂的絕對是少數，可能都會覺得懷校長有點像個外星人一般在那自顧自的演講。但我作為一個曾經有志從事人工智慧研究但失之交臂的又是學電腦畢業的人卻越聽越興奮，冥冥中似乎找到了未來的人工智慧所能抵達的可能性，那麼我現在就嘗試把懷教授的演講轉換為人類也能夠聽懂的語言吧。

一，理解大資料

1，當前大資料的四大特徵：規模大、變化快、種類雜、價值密度低。

其實這理解起來很簡單，我們來看新浪微博的大資料，為什麼變現那麼困難就知道了，新浪微博擁有龐大海量的使用者大資料，但用這些行為資料變現卻步履維艱，原因就在於微博上所產生的資料不夠垂直，涉及面極廣，而能夠與商業相關的價值就更加難以挖掘了。

2，產業成果

懷校長列舉了三塊內容，百度和谷歌熟悉使用者流覽行為，進而提供個人化的搜索。淘寶亞馬遜因為熟悉使用者購物習慣，可以為使用者提供精准的喜好物品。微博和twitter瞭解使用者思維習慣和社會認知，可以為國家和企業提供民眾情緒等系列資料。

二，實踐中的思維轉變

大資料帶給我們在研究以及實踐策略上的思維轉變。

1，從抽樣到全樣，大資料的大決定了大而全的特性，在傳統工業中教會我們做統計的最大方式就是抽樣，諸如系統抽樣，分層抽樣，定額抽樣......，這些統計方法將會在大資料時代越來越不復存在。大資料的資訊化可以統計到一切想要統計的資料，將工業時代的統計方法淘汰掉。

我們將會利用技術獲得一切想要統計到的資料。

2，從精確到非精確。關於這一點其實也很好理解，我們就拿傳統時代的搜索來說，在傳統的搜索時代，當我們去查詢某個資訊時，我們需要得到的是全部的資料，但是搜尋引擎則完全改變了我們這種認識，搜尋引擎提供的只是前幾項內容，而這幾項內容則完全滿足了我們的資訊需求。

搜尋引擎其實在做的是一套模糊演算法，經過一系列的演算法計算，將最優秀的結果帶到使用者面前，而這種結果上的呈現也顛覆了傳統所認知的對於目標的定義，在大資料時代，我們追求的不再是絕對目標，而是一個從宏觀趨勢下推匯出的一些模糊的不精確的未知目標。

我們將追求無限的近似而不是絕對的正確。

3，從因果到關聯。而這也直接導致了西方又產生了驚人的言論—「理論已死」，這是繼「上帝之死」，「人之死」，「作者已死」「歷史的終結"，「哲學已死」後的又一大膽的言論。以往的決策者要想決定某件事，必須參考各種理論，對其中的因果進行判定後才能達成，但是大資料時代則讓決策變得更加容易，比如超市大資料可能會用清晰的圖表告訴你每當下雨天時，超市里的蛋糕會賣的多，這時候決策者根本不需要知道任何理論，任何因果，只需要在天氣預報預測明天將要下雨時提前準備蛋糕就行了。

而這種只依賴相關性不再依賴因果性的決策思想，正在慢慢的滲透到擁有大資料的各行各業，互聯網業，零售業，旅遊業，金融業......

三，大資料到大資料計算

1，大資料膨脹，如何解決搜索問題？傳統的演算法在搜索資料時完全沒有問題，因為資料量很小，但是當資料海量增長時問題就會凸顯出來，用原來的演算法去計算肯定是不行的，按照當前最快的硬碟檢索速度(60GPS)，線性掃描完1PB（10TB的15次方）的資料需要1.9天的時間，所以當資料海量膨脹時，必須重構演算法策略來做資料的處理。百度目前的處理量是一天處理10PB的網頁數據，這其中包括了運算和讀取，算是目前最好的演算法了。

2，大資料膨脹，如何處理演算法以及資料的問題？上面提到的是通過改變演算法來達到遍歷資料的目的，但是在真正處理資料時依然是無法做到高效的，畢竟機器CPU的運算瓶頸擺在那裡，演算法工程師本質上在做的事情就是在現有的運算條件下，設計出最優方案，來求得最好的結果。

而懷校長告訴我們的這個挑戰就是，在大資料的膨脹後，不僅要將原來的演算法更換為近似演算法，同樣還要將資料更換為近似資料，只有二者合力改變才有可能在現有機器運算能力的情況下抵達最優的結果。

同樣是說起來容易做起來難，在這樣的近似演算法以及近似資料的改變下，到底該近似到何種程度，才能夠最接近原演算法的結果？要知道，在電腦世界裡，差之毫釐失之千里，改變的量也許很小，但是如果一旦改錯，就會造成巨大的錯誤結果，稍懂程式的人都知道，幾行簡短的代碼就能讓無論CPU運算能力多強的電腦徹底死機，而搜尋引擎則更是一個更加龐大的試錯工程。

最後，懷校長展示了兩個學術前沿發展，第一，是定義易解類問題，從現實應用中找到這類易搜索問題，將之歸類並應用於其他實踐當中。第二，是將大資料進行小資料處理，尋找轉化的精度度量，也就是他之前所說的尋找資料的近似值。

寫完這段不禁感慨，其實演算法工程師本質上是在機器CPU條件不夠的情況下為滿足大眾需求的博弈，機器的配置條件永遠無法跟上人類的需求，而為了滿足人類需求，演算法工程師們必須絞盡腦汁的去設計在現有條件下能夠產出的最優答案，而不是考慮標準答案。而這又讓我想到了深藍電腦擊敗國際象棋大師的事情，事實上只要是懂一些程式的人甚至連我也都可以寫出一套能夠擊敗任何國際象棋大師的演算法，只不過要想下完一局棋可能要用盡棋手一生時間都不止，因為CPU的運算速度無法跟上想法。所以深藍電腦的勝利本質上不是人工智慧贏了，而是工程師在設計最優演算法的策略上贏了。

此外在大資料計算中，懷校長還講了大資料運算的三大基礎，表示，度量和理解。因為太過專業，解釋每一個詞都足夠用一篇文章來解釋，而且還不一定說得清，所以在此略過。

四，大資料軟體工程

作為學軟體工程出生的人，當我看完懷校長對大資料軟體的演講後有一種莫名的傷感，因為我預見到我曾經所學的軟體工程必將被大資料全部重構，絕大多數的軟體都可能走向為大資料軟體，這就好像網頁崛起後，網頁軟體的數量將大幅超過PC軟體一樣，又像智慧手機崛起後，APP軟體的數量開始遠超網頁軟體一樣，等到硬體設施成熟之後，未來的軟體發展也必將會是大資料的天下。追溯軟體工程的起源，這是在電腦硬體條件穩定後，為了解決效率問題而從工程學的角度來建立的軟體發展方式，分工明確，進度安排明確，和其他工業生產別無二致。但懷校長接下來的演講中，我們可以窺見到，軟體工程有可能會走向另一種模式。

1，如何解決大資料的計算支撐問題？說的簡單點就是，大資料處理必然不是一台或者幾台伺服器就能搞定的小事情，大資料處理需要龐大的硬體支撐，硬體支撐也必然是分散式的設計，那麼該如何設計頂層的系統架構才能高效能的滿足大資料的處理工作？近似性（Inexact）、增量性（Incremental）和歸納性（Inductive）的3I特徵如何被滿足？

大資料下分散式硬體如何與軟體協同，如何避免擴展失度，處理失效和耗能失控，這些都是令人頭大的問題。在系統設計上充滿挑戰。

2，眾包大資料是否可以開發軟體？這其實是一個非常瘋狂的想法，我是這樣解讀懷校長的想法的，假設目前我們可以做到眾包大資料軟體發展，那麼情形應該如下：大資料爬行機器根據讀取新浪微博的資料，百度指數的資料，百度貼吧的資料，淘寶的交易資料...... 後，發現了使用者的各種情緒以及需求的曲線，軟體發展者再根據這些資料的呈現開發出一套軟體的模型然後交給運營商放置於雲端，而使用者再參與進入各種雲端產生的軟體，在此種產生了各種行為，於是機器再根據這些使用者的行為，為軟體建模，規劃。

這是一種極為精尖互動式資料採礦技術，前提是解決演算法以及存儲問題，一切皆有可能。未來的大資料軟體將不會是一種固有形態，而是一個不斷根據資料自動變化的超級生態，可能不是依靠產品經理推動，而是依靠演算法工程師來推動，讓使用者的需求自然暴露，然後為他們去實現一些功能。

而我從一個更高的哲學層面來看這樣的大資料軟體建構，如果我們將全人類的群體行為看成是不斷運作產生的資料，然後我們某些個體從中把握了某些東西進而產生了各種產品，再回過來看這樣的大資料軟體架構，其實說到底，這樣的大資料軟體，其實更像是在將我們的世界還原出來而已，只不過會比人做出來的更快更厲害更加完美。

如果真的能夠實現這樣的大資料軟體建構，那麼目前對大資料的某種定義將被完全推翻，在我們眼裡大資料不過是用來固定的人類資訊行為後為人類輔助的決策工具，這樣的觀點也將失效。大資料或許會在未來某個階段被定義為：對人類世界的真實還原，並且不斷的滿足我們的任何願望，曾經我們依靠它來決策一些事情，現在我們依靠它來直接抵達我們想要做的事情，我們所有的行為都已經成為我們決策的一部分。

這其實就是超級人工智慧了。

結語：懷校長的演講在開頭部分講了大資料在這個時代對我們傳統思維的衝擊，一些價值觀的建立，但是接下來講的更多的不是已經成型的科研成果，更多的是拋出問號，拋出還沒有解決的難題，以及一些失敗的嘗試，還有一些沒有開始嘗試的假設，這在表面上看來似乎與本次演講的主題有些唱反調的樣子，但仔細想想卻又明白，CPU的計算能力永遠達不到這些最頂級的科研人員想要的高度，而電腦科學家們永遠只能在現有的條件下做困獸鬥，做出在這個時代所能賦予的條件下最漂亮的成績，而這就是他們一生所追求的使命。

感謝懷校長的精彩演講，讓我們看到了未來的零星火花，很美。

原文連結:HTTP://www.huxiu.com/article/32717/1.html?f=wangzhan

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

超級人工智慧：大資料的未來？

聯繫我們

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support