大資料中一個耳熟能詳的說法是:大資料長於分析相關關係,而非因果關係。 但這可能是一個偽命題。 如何從相關關係中推斷出因果關係,才是大資料真 正問題所在。 這個問題,被稱為因果推斷(causal inference),它是蘋果iPhone 6的語音辨識和谷歌的無人駕馭汽車技術的基礎。 這個領域的大牛,美國工程院院士于達·珀爾(Judea HTTP://www.aliyun.com/zixun/aggregation/16865.html">Pearl,國內一般譯為裘蒂亞· 珀爾)因此獲得2011年的圖靈獎。 珀爾院士提出概率和因果推理演算法,徹底改變了人工智慧最初基於規則和邏輯的方向。
珀爾院士的思想,在圖靈問題的頂層設計高度,改變了我關於大資料的認識。 與珀爾院士的深度思想交流事出偶然。 「美國大師行」的三藩市站安排9月3日下午 見珀爾院士。 本來只是禮節性的見面,請他簡單介紹一下研究成果。 但珀爾院士顯然理解錯了,以為是專業交流,於是準備了64頁的數學講義。 當他聽說聽眾竟然 來自媒體、法律、經濟等文科背景時,不禁瞠目結舌。 他說:「對不起,我不知道你們......」.改講義已來不及了,只好硬著頭皮,對牛彈琴。 不料,兩小時後,珀 爾院士談得興起,早忘了我們是學什麼的,奔放的數學思想噴薄而出,圖論、概率論、非線性數學的公式像袋鼠一樣,隔著十幾步十幾步地跳躍,如黃河之水,一發 而不可收。 時間已到,主辦方反復提示無效,又講了一個多小時。
我身旁的兄弟,被我晃醒,好像還在夢中,幾乎已經坐不正了。 我靠一杯一杯的咖啡支撐,勉強聽著。 之後,卻意外地聽入了迷,最後聽到如醉如癡。 因為我發現珀爾院士講的,正是我在大資料上日思夜想的問題。
近年來,我在介紹大資料時,對相關關係與因果關係這個說法一直心存疑惑。 雖然也引進美國大資料理論,如巴拉巴西院士的說法,但這個疑惑並沒有消除。 相關 關係對應經驗歸納,因果關係對應理性演繹。 但難道大資料只有歸納,沒有演繹嗎,或者問,大資料如何才能實現歸納與演繹間的轉化? 在這個思維瓶頸上,珀爾院 士一下點破了我。
珀爾院士走後,大家面面相覷,互相打聽,這三個半小時,灌的是什麼東東。 在交流學習體會時,一位數學專業的專家說,他感到珀 爾院士是在用一種非線性的方法,解決線性的問題。 統計過去不能處理因果關係,只能處理相關關係,珀爾院士的貢獻是把因果關係引入了統計概率分析,把非結構 化的東西半結構化了。 半途接替口語翻譯進行專業翻譯的查理,是騰訊大資料師,專業研究方向與珀爾同領域。 他以「西安的模型能否用於成都」為比喻,從專業角 度又向大家解釋了一遍。 我被當作文科的代表,在毫無心理準備的情況下,推到臺上交流體會。 直到被研究非線性物理出身的查理超贊時,才確認自己聽的、想的, 確實是珀爾院士講的,感覺像中了獎一樣。
我一上來就說,圖靈問題的核心是人與自然(機器)關係問題,人工智慧就是要實現二者的統一。 這個問題 對應的今天的主題,是定性(非結構化)與定量,歸納與演繹,感性與理性的關係--相關關係與因果關係--如何統一的問題。 用珀爾院士的話說,就是從巴比倫 思維到雅典思維的問題(The causal revolution from associations to counterfactuals from Babylon to Athens)。 大資料發展當前存在的問題是,偏離了圖靈原問題的軌道,變成理性計算的天下,以谷歌的數學演算法為代表;而忽視了臉譜的演算法(基於人與人 associations的感性演算法)。 後者在統計學中,就是相關關係資料分析。 珀爾院士對後者也不滿意,因此才批評說「不要老想資料,先把現實用模型模 擬出來」(大意如此),意思是要把非結構化的定性問題結構化。
查理此前曾說珀爾院士提出的是休謨的問題。 我說,珀爾院士提出和解決問題的思路 讓我想起康得,我覺得他今天講的內容,就是《純粹理性批判》的數學版,而方法上的思路讓我聯想到牛頓與萊布尼茨。 我回國後查閱專業資料時,發現有人這麼評 價珀爾院士的問題意識:「有人提到了哲學(史)上的休謨問題(我的轉述):人類是否能從有限的經驗中得到因果律? 這的確是一個問題,這個問題最後促使德國 哲學家康得為調和英國經驗派(休謨)和大陸理性派(萊布尼茲-沃爾夫)而寫了巨著《純粹理性批判》。 」看來所見略同。
康得《純粹理性批判》的 原問題,是經驗與理性之間的關係,相當於大資料中相關關係與因果關係之間的關係。 我說,康得當年解同樣問題的思路,像極了珀爾院士。 康得設置了一個叫「圖 式」的概念,作為溝通經驗與理性的中間框架(FRAME)。 「圖式」的特徵是,兼具經驗的具體性與理性的普遍性,但既不同于經驗,也不等於理性。 珀爾院士 的「圖式」就是因果圖 (Causal Diagram),是他的結構化理論。 這個結構不是完全理性的,而是可以靈活調整的。 我說,珀爾院士的結構與康得的圖式唯一不同在於,前者設置了可替換的 部件模組,用於根據情況臨時調整,因此不是機械的結構,而是活的、松耦合的結構(例如,就象查理講的,西安的「普遍真理」模型,只要更換一些適應成都「具 體實踐」 的子模組,就可以用於成都)。
在方法上,珀爾院士以柏拉圖著名的洞穴寓言,說明因果(真相)、結構(人)與相關(影子)之間的映射關 系。 我說,這更像牛頓和萊布尼茨的方法論:以理性為極限值,以經驗為數列,中間設一個結構化的函數(相當於洞穴中的人)。 經驗(相關)可以無限接近理性 (因果),永遠達不到因果(極限值),但可以視為等於因果。 珀爾院士的獨特之處,只不過是把這個「函數」(圖式),泛函化了,實現了從結構化向非結構化、 從線性到非線性的轉化。 為此,在結構模型上,進行大量複雜的數學展開,成為他理論的重點。 他的模型被稱為「圖模型」或者「貝葉斯網路」(Bayesian network),用來描述變數聯合分佈或者資料生成機制。 好在聽眾睡覺時,他講的都是這一部分具體內容。 關於他的因果結構理論,我聽課時私底下議論說, 這個用流形上的微積分(Calculus on Manifolds),所謂「橡皮膜上的拓撲幾何學」也做得出來。
當前,人們討論大資料,有 一個不好的傾向,在結構化還沒有打好基礎情況下,片面追求所謂非結構化資料。 這樣就陷入珀爾院士批評的「老想資料」的狀態,相當於解微分的時候,不列函 數,就想直接從數列中求極值一樣。 在中國,這種情況尤為嚴重。 這會把大資料搞成脫離表義基礎的禪宗。 在商業上,不排除實用主義地利用大資料,找到賣貨上的 皮毛聯繫,但更適合小攤小販,畢竟不知其所以然,就做不大,做不長。
不過這也不奇怪,整個統計學和概率論,目前還停留在這個水準上,大多是關 于「相關關係」的理論,而關於「因果關係」的理論非常稀少。 Karl Pearson 就明確反對用統計研究因果關係。 困擾統計的根本問題(辛普森悖論,Yule-Simpson's Paradox),也同樣是困擾大資料的根本問題。
泛而言之,在整個邏輯學中,歸納論只能表示事物之間的相關關係,還無法指出真正的因果關係。 這是有人類以來的難題。 巴比倫人在畢達哥拉斯之前一千年已掌 握了畢氏定理的應用,也早就開始了天文觀察;但雅典人卻從經驗中提煉出了天文學的思辨理論。 我們現在在還只是大資料上的巴比倫人。
話說回來, 因果推斷過猶不及。 如果把相關關係完全結構化了,也有問題,那就會排斥人類自由意志的空間。 玻爾院士似乎還沒有想過其中的哥德爾悖論問題。 正如段永朝評論 玻爾院士的那樣:「不可知與可知,一定是你中有我,我中有你。 他們想解決這個問題。 確定性、不確定攪成一團。 一時來看,方法上實現了;但根本上來說,科學 觀要升級。 」
想一想珀爾院士也真不容易,畢業于人稱的「野雞」大學,超前人類幾十年為大資料奠基,卻少有人聽懂他。 他兒子Daniel Pearl是華爾街日報的駐外記者,9-11後在巴基斯坦被恐怖組織抓住,幾天後斬首碎屍。 珀爾院士沒回答提問就走了,說要陪夫人。 因為就在上午傳來消 息,第二位美國記者像他兒子一樣被恐怖組織斬首,他夫人一定會再次想起兒子。