一、大資料的初步理解
似乎一夜之間,大資料(Big Data)變成一個IT行業中最時髦的詞彙。
首先,大資料不是什麼完完全全的新生事物,Google的搜索服務就是一個典型的大資料運用,根據客戶的需求,Google即時從全球海量的數位資產(或數位垃圾)中快速找出最可能的答案,呈現給你,就是一個最典型的大資料服務。 只不過過去這樣規模的資料量處理和有商業價值的應用太少,在IT行業沒有形成成型的概念。 現在隨著全球數位化、網路寬頻化、互聯網應用於各行各業,累積的資料量越來越大,越來越多企業、行業和國家發現,可以利用類似的技術更好地服務客戶、發現新商業機會、擴大新市場以及提升效率,才逐步形成大資料這個概念。
有一個有趣的故事是關於奢侈品行銷的。 PRADA在紐約的旗艦店中每件衣服上都有RFID碼。 每當一個顧客拿起一件PRADA進試衣間,RFID會被自動識別。 同時,資料會傳至PRADA總部。 每一件衣服在哪個城市哪個旗艦店什麼時間被拿進試衣間停留多長時間,資料都被存儲起來加以分析。 如果有一件衣服銷量很低,以往的作法是直接幹掉。 但如果RFID傳回的資料顯示這件衣服雖然銷量低,但進試衣間的次數多。 那就能另外說明一些問題。 也許這件衣服的下場就會截然不同,也許在某個細節的微小改變就會重新創造出一件非常流行的產品。
還有一個是關於中國糧食統計的故事。 中國的糧食統計是一個老大難的問題。 中國的統計,雖然有組織、有流程、有法律,但中央的統計人員依靠省統計人員,省靠市,市靠縣,縣靠鎮,鎮靠村,最後真正幹活或上報的是基層兼職的調查人員,由於眾所周知的KPI考核導向的原因,層層加碼,幾乎沒有人相信這個調查資料, 而其中國家統計局的人是最不信的。 在前兩年北京的一個會議上,原國家統計局總經濟師姚景源向我們講述了他們是如何做的。 他們採用遙感衛星,通過圖像識別,把中國所有的耕地標識、計算出來,然後把中國的耕地網格化,對每個網格的耕地抽樣進行跟蹤、調查和統計,然後按照統計學的原理,計算(或者說估算)出中國整體的整體糧食資料。 這種做法是典型採用大資料建模的方法,打破傳統流程和組織,直接獲得最終的結果。
最後是一個炒股的故事。 這個故事來自于2011年好萊塢的一部高智商電影《永無止境》,講述一位落魄的作家庫珀,服用了一種可以迅速提升智力的神奇藍色藥物,然後他將這種高智商用於炒股。 庫珀是怎麼炒股的呢? 就是他能在短時間掌握無數公司資料和背景,也就是將世界上已經存在的海量資料(包括公司財報、電視、幾十年前的報紙、互聯網、小道消息等)挖掘出來,串聯起來,甚至將Face Book、 Twitter的海量社交資料採礦得到普通大眾對某種股票的感情傾向,通過海量資訊的挖掘、分析,使一切內幕都不是內幕,使一切趨勢都在眼前,結果在10天內他就贏得了200萬美元,神奇的表現讓身邊的職業投資者目瞪口呆。 這部電影簡直是展現大資料魔力的教材性電影,推薦沒有看過的IT人士看一看。
從這些案例來看,大資料並不是很神奇的事情。 就如同電影《永無止境》提出的問題:人類通常只使用了20%的大腦,如果剩餘80%大腦潛能被激發出來,世界會變得怎樣? 在企業、行業和國家的管理中,通常只有效使用了不到20%的資料(甚至更少),如果剩餘80%資料的價值激發起來,世界會變得怎麼樣呢? 特別是隨著海量資料的新摩爾定律,資料爆發式增長,然後資料又得到更有效應用,世界會怎麼樣呢?
單個的資料並沒有價值,但越來越多的資料累加,量變就會引起質變,就好像一個人的意見並不重要,但1千人、1萬人的意見就比較重要,上百萬人就足以掀起巨大的波瀾,上億人足以改變一切。
資料再多,但如果被遮罩或者沒有被使用,也是沒有價值的。 中國的航班晚點非常多,相比之下美國航班准點情況好很多。 這其中,美國航空管制機構一個的好做法發揮了積極的作用,說起來也非常簡單,就是美國會公佈每個航空公司、每一班航空過去一年的晚點率和平均晚點時間,這樣客戶在購買機票的時候就很自然會選擇准點率高的航班, 從而通過市場手段牽引各航空公司努力提升准點率。 這個簡單的方法比任何管理手段(如中國政府的宏觀調控手段)都直接和有效。 這裡多說一兩句,過去一個暴政國家對內的控制主要是物理上的暴力,就是強力機構權力無限大,搞國家恐怖主義;而現在一個暴政國家,主要是就靠壟斷資訊、封鎖資訊,讓民眾難以獲得廣泛而真實的資訊,從而實現國家的控制。 這個資訊封鎖,就是對大資料的封鎖。
沒有整合和挖掘的資料,價值也呈現不出來。 《永無止境》中的庫珀如果不能把海量資訊圍繞某個公司的股價整合起來、串聯起來,這些資訊就沒有價值。
因此,海量資料的產生、獲取、挖掘及整合,使之展現出巨大的商業價值,這就是我理解的大資料。 在互聯網對一切重構的今天,這些問題都不是問題。 因為,我認為大資料是互聯網深入發展的下一波應用,是互聯網發展的自然延伸。 目前,可以說大資料的發展到了一個臨界點,因此才成為IT行業中最熱門的詞彙之一。
二、大資料將重構很多行業的商業思維和商業模式
我想以對未來汽車(行情 專區)行業的狂野想像來展開這個題目。
在人的一生中,汽車是一項巨大的投資。 以一部30萬車、七年換車週期來算,每年折舊費4萬多(這裡還不算資金成本),加上停車、保險(行情 專區)、油、維修、保養等各項費用,每年耗費應在6萬左右。 汽車產業也是一個很長產業鏈的龍頭產業,這個方面只有房地產(行情 專區)可以媲美。
但同時,汽車產業鏈是一個低效率、變化慢的產業。 汽車一直以來就是四個輪子、一個方向盤、兩排沙發(李書福語)。 這麼一個昂貴的東西,圍繞車產生的資料卻少的可憐,行業產業鏈之間幾無任何資料傳遞。
我們在這裡狂野地想像一番,如果將汽車全面數位化,都大資料了,會產生什麼結果?
有些人說,汽車數位化,不就是加個MBB模組嗎? 不,這太小兒科了。 在我理想中,數位化意味著汽車可以隨時聯上互聯網,意味著汽車是一個大型計算系統加上傳統的輪子、方向盤和沙發,意味著可以數位化導航、自動駕駛,意味著你和汽車相關的每一個行動都數位化,包括每一次維修、每一次駕駛路線、 每一次事故的錄影、每一天汽車關鍵部件的狀態,甚至你的每一個駕駛習慣(如每一次的刹車和加速)都記錄在案。 這樣,你的車每月甚至每週都可能產生T比特的資料。
好了,我們假設這些資料都可以存儲並分享給相關的政府、行業和企業。 這裡不討論隱私問題帶來的影響,假設在隱私保護的前提下,資料可以自由分享。
那麼,保險公司會怎麼做呢? 保險公司把你的所有資料拿過去建模分析,發現幾個重要的事實:一是你開車主要只是上下班,南山到阪田這條線路是非繁華路線,紅綠燈很少,這條路線過去一年統計的事故率很低;你的車況(車的使用年限、車型)好, 此車型在全深圳也是車禍率較低;甚至統計你的駕駛習慣,加油平均,臨時刹車少,超車少,和周圍車保持了應有的車距,駕駛習慣好。 最後結論是你車型好,車況好,駕駛習慣好,常走的線路事故率低,過去一年也沒有出過車禍,因此可以給予更大幅度的優惠折扣。 這樣保險公司就完全重構了它的商業模式了。 在沒有大資料支撐之前,保險公司只把車險客戶做了簡單的分類,一共分為四種客戶,第一種是連續兩年沒有出車禍的,第二種過去一年沒有出車禍,第三種過去一年出了一次車禍,第四種是過去一年出了兩次及以上車禍的,就四種類型。 這種簡單粗暴的分類,就好像女人找老公,僅把男人分為沒有結過婚的、結過一次婚的、結過二次婚的、結過三次及以上婚的四種男人,就敢嫁人一樣。 在大資料的支援下,保險公司可以真正以客戶為中心,把客戶分為成千上萬種,每個客戶都有個人化的解決方案,這樣保險公司經營就完全不同,對於風險低的客戶敢於大膽折扣,對於風險高的客戶報高價甚至拒絕, 一般的保險公司就完全難以和這樣的保險公司競爭了。 擁有大資料並使用大資料的保險公司比傳統公司將擁有壓倒性的競爭優勢,大資料將成為保險公司最核心的競爭力,因為保險就是一個基於概率評估的生意,大資料對於準確評估概率毫無疑問是最有利的武器,而且簡直是量身定做的武器。
在大資料的支援下,4S店的服務也完全不同了。 車況資訊會定期傳遞到4S店,4S店會根據情況及時提醒車主及時保養和維修,特別是對於可能危及安全的問題,在客戶同意下甚至會採取遠端干預措施,同時還可以提前備貨,車主一到4S店就可以維修而不用等待。
對於駕駛者來說,不想開車的時候,在大資料和人工智慧的支援下,車輛可以自動駕駛,並且對於你經常開的線路可以自學習自優化。 谷歌的自動駕駛汽車,為了對周圍環境作出預測,每秒鐘要收集差不多1GB的資料,沒有大資料的支援,自動駕駛是不可想像的;在和周圍車輛過近的時候,會及時提醒車主避讓;上下班的時候,會根據即時大資料情況, 對於你經常開車的線路予以提醒,繞開擁堵點,幫你選擇最合適的線路;在出現緊急狀況的時候,比如爆胎,自動駕駛系統將自動接管,提高安全性(人一輩子可以難以碰到一次爆胎,人在緊急時的反應往往是災難性的,只會更糟);到城市中心, 尋找車位是一件很麻煩的事情,但未來你可以到了商場門口後,讓汽車自己去找停車位,等想要回程的時候,提前通知讓汽車自己開過來接。
車輛是城市最大最活躍的移動物體,是擁堵的來源,也是最大的污染來源之一。 數位化的車輛、大資料應用將帶來很多的改變。 紅綠燈可以自動優化,根據不同道路的擁堵情況自動進行調整,甚至在很多地方可以取消紅綠燈;城市停車場也可以大幅度優化,根據大資料的情況優化城市停車位的設計,如果配合車輛的自動駕駛功能,停車場可以革命性演變, 可以設計專門為自動駕駛車輛的停車樓,地下、地上樓層可以高達幾十層,停車樓層可以更矮,只要能高於車高度即可(或者把車豎起來停),這樣將對城市規劃產生巨大的影響;在出現緊急情況,如前方塌方的時候, 可以第一時間通知周圍車輛(尤其是開往塌方道路的車輛);現在的燃油稅也可以發生革命性變化,可以真正根據車輛的行駛路程,甚至根據汽車的排汙量來收費,排汙量少的車甚至可以搞碳交易,賣排放量賣給高油耗的車 ;政府還可以每年公佈各類車型的實際排汙量、稅款、安全性等指標,鼓勵民眾買更節能、更安全的車。
電子商務和快遞業也可能發生巨大的變化。 運快遞的車都可以自動駕駛,不用趕白天的擁堵的道路,晚上半夜開,在你家門口設計自動接收箱,通過密碼開啟自動投遞進去,就好像過去報童投報一樣。
這麼想像下來,我認為,汽車數位化、互聯網化、大資料應用、人工智慧,將對汽車業及相關的長長的產業鏈產生難以想像的巨大變化和產業革命,具有無限的想像空間,可能完全被重構。 當然,要實現我所描述的場景,估計至少50年、100年之後的事情了,估計我這輩子是看不到的。
下面一個想像是圍繞著人本身來展開的。 人的數位化生存也就是這幾十年的事情。 我爺爺奶奶那輩子,是在人生末年的時候有照片,算是初步在個人形象方面有了一點數位化,讓我們及後代還可以知道爺爺奶奶的光輝形象。 而我們從小就有照片,這些年我們的數位化就越來越多了,身份是數位的(就是身份證),銀行(行情 專區)存款是數位的,照片是全數位,體檢單也數位化,購物數位化(淘寶上有我的幾十個位址、幾百條購物資訊、上萬次搜索資訊), 溝通數位化(微信上有新的朋友圈生態),初步構建了一個數位化生存的狀態。 而我們的下一輩或下下一輩將進入完全的數位化生存,人從一出生就有基因圖譜,到後續的每一次體檢、每一次化驗,到每一年、每一個月、每一個日子的活動,到相關親戚的軌跡,從每一個人,到每一代人,到整個族譜,到整個國家,到整個全球, 這些海量資料的產生將從量變到質變,這些資料的挖掘與使用將對人類本身產生革命性的影響。 這裡,我們也想像一下:
比如,在你找物件的時候,碰上一位心愛的姑娘,大資料系統就像算命系統一樣,根據雙方海量資料的挖掘,告訴你和姑娘匹配指數是多少,告訴你全球類似情況的夫妻日後離婚概率是多少,低於某個匹配指數, 大資料系統會慎重建議你認真考慮不要這個姑娘繼續交往下去。 聽起來是不是特別像門當戶對的數位化呢? 當然,你可能會說,這樣的人生多沒有意思啊,錯誤本來就是人生最美麗的一部分。 呵呵,我只討論科學問題,對你這種以「浪漫主義」為名,事實上是不以結婚為目的的耍流氓式的戀愛,不予以理睬。 其實,我內心也承認,偶爾耍耍流氓是很好的。 呵呵,開個玩笑。
又比如,在你找工作的時候,可能會有這麼一天,當你面試時,HR會淡定的告訴你,對不起,經過我們的大資料分析,你歷來的網貼、微博、微信總體負面情緒過多,不符合我們企業陽光樂觀積極向上的主題,出門左拐就有地鐵站,慢走。
再比如,在你過生日的那天,朋友們生日快樂祝福之後,大資料分析系統會告訴你,你的生命將進入倒計時,根據過去幾年的身體數位化大資料,根據基因圖譜,根據你親戚的相關情況統計,你有80%的概率在20年內死去,有30% 概率在60歲左右因基因缺陷發生腦溢血,因此你要改善生活習慣,並重點加強監控腦溢血發生的可能性。 這些事情如果都發生,會出現什麼情況? 第一,估計人類的生命普遍將延長10年以上,因為很多潛在的突發性惡性疾病爆發的概率大幅度降低了。 第二,和上面的汽車故事一樣,保險公司也可以基於大資料重建商業模型,可以對每個人的大資料進行分析,對每個人進行針對性的保險業務設計。 第三,藥廠的商業模式可能也改變了,藥廠擁有你相關的大資料,可以為你量身定做藥品,西服都能量身定做,藥品為什麼不能呢? 定制的西服更合身,定制的藥品肯定針對性更強、副作用更少。 西服能量身定做,是因為有你三圍的資料,藥品能量身定做也是因為有你身體的資料,道理是一樣的。 第四,國家的醫保政策也可能重構,國家能根據大資料系統,分析整體國民素質,分析老齡化情況,分析養老金系統的承受能力,針對性地增強某些區域的醫療資源,或者動態調整養老保險費率,或者動態調整退休年限等等。
對汽車產業和數位化人生的想像告一段落。 這裡,我想系統回顧一下工業文明的發展歷程,首先是物理世界的工業文明,典型是蒸汽機的發明,使汽車、輪船進入生活;然後是數位世界的工業文明,就是IT技術的使用,使PC及各種電子產品進入生活,以及企業數位化系統的建立, 使沃爾瑪這樣的巨型企業產生成為可能;下一步就是物理世界和數位世界的融合,這也就是業界熱炒的「工業互聯網」、「IT 3.0」,而這裡面除了數位技術在傳統行業的使用(這個事實上已經在廣泛使用)、電子商務在管道的廣泛推行, 更重要的就是大資料的產生及挖掘、使用,使企業在管理方式、市場機會挖掘、產品設計、行銷、服務、商業模式等發生巨大的變化,這種巨大的變化帶來了很多行業的革命性變局,也就是顛覆與改造。 這種變化在所謂的低效率的大行業將最為明顯與直接。 這些所謂的的低效率大行業,就是壟斷特徵明顯、產業規模大、產業鏈長、歷史悠久但長時間變化少、IT應用水準低的行業,如汽車、金融、保險、醫療等。
在這個章節的最後,我想總結一下自己對大資料的看法。
第一,大資料使企業真正有能力從以自我為中心改變為以客戶為中心。 企業是為客戶而生,目的是為股東獲得利潤。 只有服務好客戶,才能獲得利潤。 但過去,很多企業是沒有能力做到以客戶為中心的,原因就是相應客戶的資訊量不大,挖掘不夠,系統也不支援,目前的保險業就是一個典型。 大資料的使用能夠使對企業的經營物件從客戶的粗略歸納(就是所謂提煉歸納的「客戶群」)還原成一個個活生生的客戶,這樣經營就有針對性,對客戶的服務就更好,投資效率就更高。
第二,大資料一定程度上將顛覆了企業的傳統管理方式。 現代企業的管理方式是來源於對軍隊的模仿,依賴于層層級級的組織和嚴格的流程,依賴資訊的層層彙集、收斂來制定正確的決策,再通過決策在組織的傳遞與分解,以及流程的規範,確保決策得到貫徹,確保每一次經營活動都有品質保證, 也確保一定程度上對風險的規避。 過去這是一種有用而笨拙的方式。 在大資料時代,我們可能重構企業的管理方式,通過大資料的分析與挖掘,大量的業務本身就可以自決策,不必要依靠膨大的組織和複雜的流程。 大家都是基於大資料來決策,都是依賴于既定的規則來決策,是高高在上的CEO決策,還是一線人員決策,本身並無大的區別,那麼企業是否還需要如此多層級的組織和複雜的流程呢?
第三,大資料另外一個重大的作用是改變了商業邏輯,提供了從其他視角直達答案的可能性。 現在人的思考或者是企業的決策,事實上都是一種邏輯的力量在主導起作用。 我們去調研,去收集資料,去進行歸納總結,最後形成自己的推斷和決策意見,這是一個觀察、思考、推理、決策的商業邏輯過程。 人和組織的邏輯形成是需要大量的學習、培訓與實踐,代價是非常巨大的。 但是否這是唯一的道路呢? 大資料給了我們其他的選擇,就是利用資料的力量,直接獲得答案。 就好像我們學習數學,小時候學九九乘法表,中學學幾何,大學還學微積分,碰到一道難題,我們是利用了多年學習沉澱的經驗來努力求解,但我們還有一種方法,在網上直接搜索是不是有這樣的題目,如果有,直接抄答案就好了。 很多人就會批評說,這是抄襲,是作弊。 但我們為什麼要學習啊? 不就是為了解決問題嘛。 如果我任何時候都可以搜索到答案,都可以用最省力的方法找到最佳答案,這樣的搜索難道不可以是一條光明大道嗎? 換句話說,為了得到「是什麼」,我們不一定要理解「為什麼」。 我們不是否定邏輯的力量,但是至少我們有一種新的巨大力量可以依賴,這就是未來大資料的力量。
第四,通過大資料,我們可能有全新的視角來發現新的商業機會和重構新的商業模式。 我們現在看這個世界,比如分析家中食品(行情 專區)腐敗,主要就是依賴于我們的眼睛再加上我們的經驗,但如果我們有一台顯微鏡,我們一下就看到壞細菌,那麼分析起來完全就不一樣了。 大資料就是我們的顯微鏡,它可以讓我們從全新視角來發現新的商業機會,並可能重構商業模型。 我們的產品設計可能不一樣了,很多事情不用猜了,客戶的習慣和偏好一目了然,我們的設計就能輕易命中客戶的心窩;我們的行銷也完全不同了,我們知道客戶喜歡什麼、討厭什麼,更有針對性。 特別是顯微鏡再加上廣角鏡,我們就有更多全新的視野了。 這個廣角鏡就是跨行業的資料流程動,使我們過去看不到的東西都能看到了,比如前面所述的汽車案例,開車是開車,保險是保險,本來不相關,但當我們把開車的大資料傳遞到保險公司,那整個保險公司的商業模式就全變了,完全重構了。
最後一點,我想談的是大資料發展對IT本身技術架構的革命性影響。 大資料的根基是IT系統。 我們現代企業的IT系統基本上是建立在IOE(IBM小型機、Oracle資料庫、EMC存儲)+Cisco模型基礎上的,這樣的模型是Scale-UP型的架構,在解決既定模型下一定資料量的業務流程是適配的,但如果是大資料時代, 很快會面臨成本、技術和商業模式的問題,大資料對IT的需求很快就會超越了現有廠商架構的技術頂點,超大資料增長將帶來IT支出增長之間的線性關係,使企業難以承受。 因此,目前在行業中提出的去IOE趨勢,利用Scale-out架構+開源軟體對Scale-up架構+私有軟體的取代,本質是大資料業務模型所帶來的,也就是說大資料將驅動IT產業新一輪的架構性變革。 去IOE潮流中的所謂國家安全因素,完全是次要的。
所以,美國人說,大資料是資源,和大油田、大煤礦一樣,可以源源不斷挖出大財富。 而且和一般資源不一樣,它是可再生的,是越挖越多、越挖越值錢的,這是反自然規律的。 對企業如此,對行業、對國家也是這樣,對人同樣如此。 這樣的東西誰不喜歡呢? 因此,大資料這麼熱門,是完全有道理的。
三、新智慧生物的誕生?
下面的想像就更狂野了,真正要實現,估計至少是我們十輩子或者一百輩子以後的事情。 那時候,我們已經是祖宗了哈。 大家就當科幻小說來看好了。
從最近一位微軟副總裁的演講說起。 瑞克·拉希德(Rick Rashid)是微軟研究院的高級副總裁,有一天,他在中國的天津邁上講臺,面對2000名研究者和學生,要發表演講,他非常非常緊張。 這麼緊張是有原因的。 問題在於,他不會講中文,而他的翻譯水準以前非常糟糕,似乎註定了這次的尷尬。
「我們希望,幾年之內,我們能夠打破人們之間的語言障礙,」這位微軟研究院的高級副總裁對聽眾們說。 令人緊張的兩秒鐘停頓之後,翻譯的聲音從擴音器裡傳了出來。 拉希德繼續說:「我個人相信,這會讓世界變得更加美好。 」停頓,然後又是中文翻譯。
他笑了。 聽眾對他的每一句話都報以掌聲。 有些人甚至流下了眼淚。 這種看上去似乎過於熱情的反應是可以理解的:拉希德的翻譯太不容易了。 每句話都被理解,並被翻譯得天衣無縫。 令人印象最深的一點在於,這位翻譯並非人類。
這就是自然語言的機器翻譯,也是長期以來人工智慧研究的一個重要體現。 人工智慧從過去到未來都有清晰而巨大的商業前景,是以前IT業的熱點,其熱度一點不亞于現在的「互聯網」和「大資料」。 但是,人類過去在推進人工智慧的研究遇到了巨大的障礙,最後幾乎絕望。
當時人工智慧就是類比人的智慧思考方式來構築機器智慧。 以機器翻譯來說,語言學家和語言專家必須不辭勞苦地編撰大型詞典和與語法、句法、語義學有關的規則,數十萬詞彙構成詞庫,語法規則高達數萬條,考慮各種情景、各種語境,類比人類翻譯,電腦專家再構建複雜的程式。 最後發現人類語言實在是太複雜了,窮舉式的做法根本達不到最基本的翻譯品質。 這條道路最後的結果是,1960年代後人工智慧的技術研發停滯不前數年後,科學家痛苦地發現以「類比人腦」、「重建人腦」的方式來定義人工智慧走入一條死胡同,這導致後來幾乎所有的人工智慧專案都進入了冷宮。
這裡講個小插曲。 我讀大學的時候,有個老師是國內人工智慧的頂級教授,還是國內某個人工智慧研究會的副會長。 他評述當時的人工智慧,不是人工智慧,而是人工愚蠢,把人類簡單的行為分解、分解再分解,再去笨拙地類比,不是人怎麼聰明怎麼學,而是類比學習最蠢的人的最簡單的動作。 他說,對於當時人工智慧的進步,有些人沾沾自喜,說好像登月計畫中人類離月亮更進一步了,其實,就是站上了一塊石頭對著月亮抒情,啊,我離你更近了。 他對自己事業的自我嘲諷,讓我至今記憶非常深刻。
後來有人就想,機器為什麼要向人學習邏輯呢,又難學又學不好,機器本身最強大的是計算能力和資料處理能力,為什麼不揚長避短、另走一條道路呢? 這條道路就是IBM「深藍」走過的道路。 1997年5月11日,國際象棋大師卡斯帕羅夫在和IBM公司開發的電腦「深藍」進行對弈時宣佈失敗,電腦「深藍」因此贏得了這場意義深遠的「人機對抗」。 「深藍」不是靠邏輯、不靠所謂的人工智慧取勝的,就是靠超強的計算能力取勝:思考不過你,但是算死你。
類似的邏輯在後續也用到了機器翻譯上。 谷歌、微軟和IBM都走上了這條道路。 就是主要採用匹配法,同時結合機器學習,依賴于海量的資料及其相關相關統計資訊,不管語法和規則,將原文與互聯網上的翻譯資料對比,找到最相近、引用最頻繁的翻譯結果做為輸出。 也就是利用大資料以及機器學習技術來實現機器翻譯。 現有的資料量越是龐大,那麼這個系統就能越好地運行,這也正是為何新的機器翻譯只有在互聯網出現以後才有可能重新取得突破性進展的原因所在。
因此,目前這些公司機器翻譯團隊中,有不少電腦科學家,但卻連一個純粹的語言學家也沒有,只要擅長數學和統計學,然後又會程式設計,那就可以了。
總而言之,利用這種技術,電腦教會自己從大資料中建立模式。 有了足夠大的資訊量,你就能讓機器學會做看上去有智慧的事情,別管是導航、理解話語、翻譯語言,還是識別人臉,或者類比人類對話。 英國劍橋微軟研究院的克裡斯·畢肖普(Chris Bishop)打了個比方:「你堆積足夠多的磚塊,然後退上幾步,就能看到一座房子。 」
這裡我們假設這種技術能夠持續進步,未來基於大資料和機器學習基礎上的人工智慧達到比較流暢地類比人類對話,就是人類可以和機器進行比較自如的對話。 事實上,IBM的「沃森」計畫就是這樣科技工程,比如試圖讓電腦當醫生,能夠對大部分病進行診斷,並和病人進行溝通。 另外,也假設目前剛剛興起的穿戴式計算裝置取得巨大的進展。 這種進展到什麼程度呢? 就是你家的寵物小狗身上也裝上了各種感應器和穿戴式設備,比如有圖像採集,有聲音採集,有嗅覺採集,有對小狗的健康進行監控的小型醫療設備,甚至還有電子藥丸在小狗的胃中進行消化情況監控。 小狗當然也聯上網,也一樣產生了巨大的資料量。 這時,我們假設基於這些大資料建模,能夠類比小狗的喜怒哀樂,然後還能夠通過擬人化的處理進行語音表達,換句話說,就是類比小狗說人話,比如主人回家時,小狗搖尾巴,旺旺叫,那麼這個附著于小狗身上的人工智慧系統就會說,「主人, 真高興看到你回家」。 不僅如此,你還可以和小狗的人工智慧系統進行對話,因為這個人工智慧系統能基本理解你的意思,又能夠代替小狗擬人化表達。 以下我們類比一下可能的對話:
你:「小狗,今天過得好? 」
小狗:「不錯啊,主人你今天換的新狗糧味道很好,總覺得沒有吃夠。 」
你:「那很好。 我們以後繼續買這種狗糧。 對了,今天有什麼人來嗎? 」
小狗:「只有郵遞員來投遞報紙。 另外,鄰居家的小狗瑪麗也來串門,我們一起玩了一下午。 」
你:「那你們玩的怎麼樣? 」
小狗:「很開心啊。 我好像又進入了初戀呢。 」
......
我們可以把上面的類比對話當成一個笑話。 但其實,我們這個時候就會發現一個驚人的事實,就是你其實是面對了兩只小狗,一隻是物理意義上的小狗,一隻是基於大資料和機器學習的人工智慧虛擬小狗,而且虛擬小狗比物理小狗還要聰明,真正善解人意。 那麼,這個虛擬小狗是不是新的智慧生物呢?
我們繼續把這個故事來做延伸,把小狗換成未來的人,人在一生中產生大量的資料,根據這些資料建模可以直接推演出很多的結論,比如喜歡看什麼樣的電影啊,喜歡什麼口味的菜啊,在遇到什麼問題時會怎麼採取什麼行動啊。
這樣的資料一直累積下來,直到這個人去世。 我們有個大膽的想像,這些巨大的資料能否讓這個人以某種方式繼續存在下去呢? 後代有什麼問題需要尋求答案的時候,比如在人生的關鍵抉擇時,比如大學要上什麼專業、該不該和某個姑娘結婚,可不可以問問這個虛擬的人(祖先)有什麼建議呢? 答案是當然可以。 在這種情況下,數位化生存不僅在人生前存在,也可以在人死後繼續存在。 人死了,可以在虛擬空間中繼續存在。 一輩子、一輩子的人故去,這些虛擬的智慧都可以繼續存在,假設很多年過去了,這些虛擬智慧的祖宗們太多太多了,活著的子孫們甚至可以組建一個「祖宗聯席參謀委員會」,優選那些考得好的(比如中過狀元),當過國家高級公務員(比如太守) 、當過企業高管(比如CEO)、當過教授、當過作家的等等當過成功人士的祖宗,專門用於後代的諮詢、解惑。 讓這些祖宗死後還有競爭,別死了就沒有事情幹了。 這個場景是不是很熟悉啊? 就是迪士尼動畫片《花木蘭》中出現過的場景啊,花木蘭在面臨是否代父參軍的重大人生時刻,就向「祖宗聯席參謀委員會」傾訴過困惑,得到了指點。
再更大膽地想像一下,假設材料(行情 專區)科學也取得巨大的進展,那我們能不能把這些虛擬的生命重新植入到類比人類的生態體上呢? 當然也可以。 這個新智慧體可非常像真正的人啊。 那這算不算人死後複生呢? 那這個新智慧體能不能繼續擁有以前的身份證呢? 能不能繼續擁有以前的財產呢? 能不能繼續享受養老金呢? 是不是也要有強制規定一定的壽命限制呢? 這種智慧體會不會自學習、自進化? 他們會不會爆發和人類的戰爭? 往深處多想想,感覺全亂套了,現在的倫理、法律等都面臨巨大的挑戰。
這些說明什麼呢? 就是隨著大資料和機器學習的進一步進展,這個世界出現了新的智慧生物! 大資料和機器學習在改變、重構和顛覆很多企業、行業和國家以後,終於到了改變人類自身的時候了! 人類的演進出現了新的分支!
有科學家畫了下面一張圖,來描述這兩者智慧生物。 一種是基於生物性的,經過幾百萬年的進化而來;一種是基於IT技術,基於大資料和機器學習,通過自類比、自學習而來。 前者更有邏輯性,更有豐富的情感,有創造力,但生命有限;後者沒有很強的邏輯性,沒有生物上的情感,但有很強的計算、建模和搜索能力,理論上生命是無限的。
當然,這些事情要發生都會非常非常遙遠。 反正我們活著的時候是見不到了,死了也見不到,因為我們死的時候,我相信這種建立在大資料和機器學習之上的虛擬生命還不會存在。
四、結束語
我最後想說的是,我們對未來的認知,主要是基於常識和對未來的想像。 根據統計,現在《紐約時報》一周的資訊量比18世紀一個人一生所收到的資訊量更大,現在18個月產生的資訊比過去5000年的總和更多,現在我家一台5000元電腦的計算能力比我剛入大學時全校的計算能力更強大。 科技的進步在很多的時候總會超出我們的想像,試想如果未來我們一個人擁有的電腦設備超過現在全球現在計算能力的總和,一個人產生的資料量超過現在全球資料量的總和,甚至你的寵物小狗產生的資訊量都超過現在全球資料量的總和, 世界會發生什麼呢? 那就取決於你的想像力了。
對於未來,你想像到什麼了呢?