標籤:
因素空間理論在大資料中的應用
汪培莊
遼寧工程技術大學
(在大資料與資料科學進展主題論壇上的發言稿,經過整理)
我國資料與機器智能科學工作者肩負著引領大資料時代浪潮的重任,這是關乎我們能否順利實現中國夢的大事。無論多困難,我們一定要爭取走向前列。作為在資訊革命領域裡頭曾經撕殺過的一名老兵,我曾經打造一個理論,就等這一天來接受新的考驗,這個理論就是因素空間。
一、因素空間的曆史貢獻
87年7月,日本學者山川烈在東京召開的國際模糊系統大會展廳裡擺著一台機器,明確寫著FUZZY COMPUTER的字樣,用一個倒擺控制來作示範。日本的《朝日新聞》連續三天報導,說這是後五代電腦。88年5月,《光明日報》報導“北師大汪培莊教授指導博士研究生研製出國際第二台模糊推理機”,速度從每秒1千萬次提高到1千五百萬次推理,體積縮小不到他的十分之一。這是中國當時在國際資訊革命爭奪戰中所打的一次漂亮仗。勝利的直接原因是我用因素空間建立了隨機集與模糊落影理論,從數學上遠強於日本。
60年代在教機率論課的時候,我就在黑板上畫了一個因素空間的映像。丟一枚硬幣,為什麼事先不能斷定它究竟會是哪一面朝上呢?原因是,像‘手的動作’等這樣一些因素難以掌握和控制。當因素空間可操控的維度不充分時,由於因果律的破缺而出現了隨機性。因素空間是聯絡隨機性與確定性橋樑。二者可以相互轉化,就看因素空間的維度如何掌控。柯爾莫哥洛夫所提出的基本空間就是一個因素空間,沒有因素空間的思想,就不能把一個隨機變數定義成為一個必然性的映射,就只能談古典機率而無法誘匯出分布函數和分布密度,就沒有機率論的現代化。70年代我搞模糊集研究,Zadeh只把模糊集定義成論域上的一條曲線,論域被當作一個不定義的名詞而無人問津,我把論域看成是一個因素空間。用它來探討模糊性的真諦。因素空間又成為聯絡模糊性與清晰性的一座橋樑。我發現這兩個橋樑之間有一種特殊的關係:用數學描述主觀因素比客觀因素要難,要上升一個層次,把集合論提升到它的冪,即集合的集合之上,形象地說,要從地面提到天上。我提出:地上的模糊性可以轉化為天上的隨機性。像隸屬度、信度等這一類帶有主觀性的度量都不像機率那樣滿足可加性,它們都是非可加性測度。都需要繞到天上搞可加測度,再落下來得到非可加測度。我在85年北師大出版社出版的《模糊集與隨機集落影》一書中,以高難度的工作,把序,拓撲和測度這三種基本數學結構都提到冪上,建立了主觀性度量的一般數學理論,佔領了定性事物量化的理論制高點,直到現在還沒有被國外所超越。 Shefer的信度理論和Matheron的隨機集在我書裡只需少量篇幅就可被點注清楚。當今所涉獵的三種超拓撲都在我8種超拓撲的囊括之中。所以,我親身體驗到因素空間理論的重要性。
這個勝仗實際上是錢老指導的,錢老在1986年2月13號給我寫了一封信,說“文稿收到:山川烈的工作說明他也在研究智能機的問題,也以為模糊推理是個途徑,並且動手研製元件了。所以我們國家也要有人搞元件,你校有人嗎?你知道有什麼人在搞模糊元件嗎?”實際上是在錢老的指示下,我們才做了這個事情。等這個事情完成後,錢老把我和幾位研究生叫到他的辦公室,一邊看錄影一邊談話。他說:“五十年代搞兩彈是有了理論而去乾的問題,現在搞智能電腦比那時難,最傷腦筋的事情就是還沒有真正的理論。人工智慧搞了這麼多年,還沒有摸索出真正的理論。”錢老特彆強調數學,因為工業革命的數學準備是牛頓的微積分(還有他的前人),電腦是先有數學構想才搞出來的。在他說話的時候,人工智慧已搞了多年,但真正起作用的數學工具仍是以機率論為基礎的統計方法,這是不能長久的。我領會到錢老的高瞻遠矚,從錢老講話以後,我就帶領研究生集中精力研究因素空間。其主要結果發表於以下三本書中:
- 汪培莊,李洪興,知識表示的數學理論,天津科技出版社,1994
- 劉增良,因素神經網路理論,北師大出版社,1990
- 汪培莊,李洪興,模糊系統理論與模糊電腦,科學出版社,1995
書1介紹的就是因素空間理論,書2是將因素空間用於神經網路,書3介紹的是模糊集與因素空間在模糊推理機及模糊電腦研製中的綜合運用。我們力圖把模糊推理的機制加以提煉,期望在電腦已有的數值運算中心處理器之外再加一個模糊推理的中心處理器,以便研製出智能電腦。一些基本的智能器件的數學構思都寫了,就等相應的物化元器件的誕生。
就在我們把注意力集中在中心處理器的研製上的時候,一個新的浪潮悄然而至,開始了智能網路的新時代。當全球的電腦都連網以後,什麼叫作一台電腦?這似乎需要重新定義。無論如何,中心處理器已被邊緣化,原來處於襯托和附屬地位的資料軟體主導著資訊的傳輸和運作。1989年出現的KDD和後繼的資料採礦標誌著機器智能的重心已經從第五代電腦的研製轉向資料智能化。大資料浪潮的迅猛勢頭是智能網路時代威力的表現和先聲,智能網路時代的核心競爭在於人機認知體的誕生。各種人機認知體將會形成一個個自組織的生態系統,掌握和影響著人類生活的方方面面,這是一個不以人們意志為轉移的嚴峻事實。你不能阻擋它,只能誘導它。這裡才是錢老所說的機器智能的國際爭奪的新制高點!由於我認識的片面性和自滿情緒,沒有及時調整方向,貽誤了戰機。我們曾經佔領的高地已被丟失。回頭看一下國際智能資料中較早興起的兩個數學流派,形式概念分析和粗糙集,他們所研究的正是因素空間的樣本分析。但是,他們都說不清道不明樣本的母體分布是什嗎?因素空間既然是資訊描述的普適架構,而資料又是資訊的載體,因素空間自然能為資料分析提供母體理論,成為資料科學的理論基礎。因素空間的正式論文和所說的這兩個數學理論原來都是在1982這一年同年發表的,這不僅僅是一種巧合,曆史在召喚我們,要把失去的陣地重新奪回來!
二、因素空間的內容、意義和方法
什麼是因素?因素是事物的質根。例如,男,女是人的一對質性,性別就是二者的質根,性別就是一個因素。紅,黃,藍,白,黑,…是事物的一組質性,顏色是它們的質根,顏色也是一個因素。每一個質根都統帥一系列質性,所以基因是比質性高一層的東西。它提綱挈領,如果一個因素帶兩個質性,10個因素帶出的綜合質性是多少呢?是2的十次方。不能把因素與質性相混淆。質性就是屬性,為什麼不用屬性這個現成的名稱而要用新詞呢?原因在於:屬性一詞在資料庫中的出現,是從英語‘Attribute’一詞翻譯過來的。而英語中的這一詞彙在國外有兩種不同的用法。Will在形式概念分析中用Attribute指質性,例如,他對科教片“生物與水”進行概念提取時,列舉魚和水草都是‘在水中生活’,狗和豆都‘在陸地上生活’。他把‘在水中生活’與‘在陸地上生活’列為兩個不同的Attribute。可見,他用Attribute指質性,而不是指‘生物棲性’這一質根。而在粗糙集中,Attribute指的不是質性而是質根。例如,在講按屬性分類時把積木玩具按顏色,形狀和體積來分類,在那裡,Attribute指的是顏色,形狀和體積,它們都是質根。這兩種不同的用法混淆了質性與質根的界限。我國電腦界的同仁們已注意這種混淆的情況,強調:‘顏色’與‘紅’‘黃’‘藍’不能混淆,若把紅,黃,藍等叫做屬性,那顏色就不能再叫屬性,而改稱屬性名稱;若把顏色叫屬性,那麼,紅,黃,藍等就不能再叫屬性,而改稱屬性值。我們希望能採取前一種叫法。因為,因素就是屬性的屬性,它是同類屬性之名。這樣一來,我們就有兩種協調一致,統一共存,彼此等價的叫法。有利於學科的交叉與發展。
基因是生物學中的質根,每個基因都有一串掛鈎,每個掛鈎指定一個生物屬性值。孟德爾最早把基因叫做因素(Mendelian factor),因素是廣義的基因。孟德爾發現基因,找到瞭解開生命體的鑰匙,我們強調了因素,便可找到開啟對萬事萬物進行描述的一把鑰匙。基因就是認知之因,是事物形成與被認識的基本要素。
什麼是因素空間?因素空間是以因素(屬性名稱)為軸的座標架,任何事物都可被抽象成因素空間的一個點。它是資訊描述的普適性架構。
因素之間存在著分析與綜合的運算,在數學上形成一個布爾代數。因素空間被數學地定義成滿足一定公理的以布爾代數為指標集的集合族。
笛卡爾的座標系可以看成特殊的因素空間,但是因素空間的這些座標維數是可以變的。在任何時候,我們總是要用儘可能少的維度來處理事物。也就是要不斷轉換主要因素和次要因素。因素空間的座標軸不一定是歐式實軸,對非結構的事物一樣處理。 因素空間理論還有因素藤,它是嵌入式的。因素空間中的一個點,可以放大成一個新的因素空間。若用表格形式表示因素空間的一組樣本點,則這個點可用新因素空間的概念符號來表示。
因素空間的根本目的是要為資訊描述提供普遍的架構,為思維科學奠定嚴格的數學基礎。在當前,它要為資料科學提供數學理論基礎。為構建人機認知體的巨大工程效力。
因素空間與資料科學何關係?
在現行的關聯式資料庫表中,除掉對象列,一個資訊系統就是因素空間的一組樣本點。因素空間就是承載其母體的平台。
因素空間把Codd用以建立關係庫的一般關係進一步明確規定為反映諸因素的屬性群組態的一種特定關係,叫做背景關係。它決定了母體所含的全部認知資訊,決定了概念與推理的提取。用因素空間來處理關聯式資料庫,在概念提取和因果推理這兩個環節上比起現有方法,道理簡單,演算法快捷。由於背景關係決定一切,而背景關係就是所有樣本關係的並集,所以,具有相同表頭的表格可以對行(對象)拼接,特別適合分布、分時的運算。資料越大,越有辦法。按照徐宗本教授對大資料演算法的界定,因素空間很適於建立某一類(與知識表示相關的)大資料演算法。
因素空間的核心內容在哪裡?
首先,人的思維活動歸根結底是概念的劃分。人生出來,世界是混沌一團,叫零概念,內涵為空白。隨著知識的增加,概念越分越細。從上位概念到下位概念,外延越來越小,內涵則是在繼承上位概念的內涵之後又補充一些新的屬性描述。從上位概念到下位概念的分解過程就是人類認知的一個認知單元。概念劃分離不開因素。每個認知單元都對應著一組因素,叫做單元因素。這組單元因素構成一個因素空間。叫做認知單元空間。因素空間的認知單元空間直接而完整地用數學描述了人的認知單元。
以一個上位概念的外延為論域$U$的認知單元空間被記為$(\{X_f\}_{f\in F};U)$,這裡,有一組單元因素$f_{1},\cdots,f_n$綜合而成因素$F=f_1\vee \cdots \vee f_n$。每一個因素$f_i$又被定義成一個映射$f_i:U\rightarrow X_{f_i}$, 其中$X_{f_i}$是$U$中對象在因素$f_i$下一切可能的屬性值的集合,叫做因素$f_i$的狀態空間。因素$F$也被定義成一個映射$F:U\rightarrow F$, 其中$X_F$是$U$中對象在綜合因素$F$下一切可能的屬性值的集合,叫做綜合狀態空間。記
$R=\{{x}=(x_1,x_2,\cdots,x_n)\in X_F|\exists u \in U;{x}=F(u)\}(i.e.\ x_1= f_1(u),\cdots, x_n= f_n(u))$,
叫做認知單元的背景空間,也叫做諸單元因素$f_{1},\cdots,f_n\}$間的背景關係。背景關係是對諸因素間屬性群組態的一種限制,它要求每一種搭配必須是實際存在的,亦即,在論域$U$中存在著一個對象$u$具有此種組態。
背景關係決定了下位概念的劃分。在綜合因素$F$的狀態空間$X_F$中的一個超矩形${a}=a_1\times \cdots \times a_n$在$U$中確定了一個概念的外延$E=\{u\in U|F(u)\in {a}\}$,其內涵可用定性語言描述為:“在第$i$因素下具有屬性值$a_i(i=1,\cdots,n)$”。這裡,$a_i$都取為定性的語言值。這樣的超矩形必須整個地被背景關係$R$所包含,而且不能再擴張,其分解完全由背景關係所確定。
單元因素間互為因果,我們可將綜合因素$F$分解為條件因素與結果因素兩個部分:$F=f\vee g$設$X=X_f$和$Y=X_g$分別是因素$f, g$的狀態空間,我們來討論它們之間的因果關係。
一個極端情形是:所有組態都不虛空,$R=X\times Y$, 在這種情況下,因素$f, g$被定義成相互獨立,獨立因素之間沒有有意義的因果推理。因果推理髮生於背景的約束之中。
基本定理:背景關係R決定了因素$f, g$之間的全部恒真推理句。
注意$f, g$本身可以是複雜因素,$X,Y$可以是任意高維的,這個定理就很有效力。它抬高了背景關係的地位。背景關係是對形式背景的拓廣,Will所提出的形式背景成為我們因素庫理論的中心。基本定理告訴我們:掌握了背景關係,就掌握了因素之間的全部推理知識。因素空間推理的核心就在確定$R$之形!一張關聯式資料庫表(又叫資訊系統)是對象到因素狀態空間的一個映射樣本。把對象列去掉,即樣本隱私化,就得到背景樣本。背景關係是背景樣本的母體,母體可靠樣本疊加而獲得。有一個基本命題說:背景關係R等於諸樣本背景的並集,可以對行(對象)拼接。這就符合大資料演算法所要求的,可以分布,分時,並行運算,可以對解進行組合和拼接。
這樣,資料的地位就起了變化。從前資料只是被分析的流沙,現在卻變成我們精心培植的對象。我們要保留樣本的疊加,當它代表母體時,全部推理知識都由它產生。我們不怕它犯錯誤,它在哪裡犯錯誤,就在哪裡疊加,就向真正母體逼近了一步。一個成熟的樣本,就是不再或很少犯錯誤,就是很接近母體。
從純集合論的觀點看,背景關係的母體分布不同於機率論中常見的分布。邊陲性重於疏密性,身高的背景界限決定於像姚明這樣的奇男子,而不在乎大多數人有多高。不能忽視稀有對象。這也符合大資料擺脫密度限制的特性。
背景關係通常具有凸性,既有2.3米和2.1 米高的人,便有2.2米高的人。即使現在沒有,將來也可能有。在母體$R$具有凸性的前提下,$R$可以由它的頂點決定,這樣,就可以將所有非頂點全部壓縮掉,這關乎大資料處理的核心理論和技術。於是,背景關係R又被背景基$B$所取代。背景基保證了成熟的認知單元的儲存簡捷性。認知單元的全部推理知識可以壓縮在一個不大的數值矩陣裡。
因素空間研究些什麼問題?
認知單元空間要研究的主要內容就是:
- 尋找演算法,從給定的認知單中繼資料樣本中提取概念。其中的主要問題是:怎樣培植樣本,使之逼近母體的真實概念?怎樣在概念提取中區分因素的主次?
- 尋找演算法,從給定的認知單中繼資料樣本中提取單元因素之間的因果推斷規則。其中的主要問題是:怎樣培植樣本,使之逼近母體的全部推理知識?怎樣壓縮這些知識而不受大資料的掩埋?怎樣保證運算的高效性與合理性?怎樣在推斷規則的提取中區分因素的主次?
- 尋找理論與演算法,基於前兩條任務而進行進階思維活動,如識別,決策,預測,控制,逆向推理等等。
其次,要將認知單元擴充成認知空間,因素空間的研究就必須包含以下任務:
4. 研究因素藤的嵌入結構,形成因素神經網路,使各個認知單元能夠相互銜接,形成認知的系統,大系統,大體系,實現構建人機認知體的宏大工程。在這種融合過程中,要不斷提出並履行前三項任務,即進行跨單元的概念,判斷和推理。
以上四條就是因素空間為資料科學所必須提出的內容。用因素空間來處理的資料庫簡稱為因素庫。
思維過程不同於其它物質運動過程,它帶有自己的特色,為了反映這些特色,還要包含以下任務:
5. 因素的權重及因素突顯問題
人腦活動的特點是因素驅動,遇到一個問題,怎麼辦?首先是要抓因素。相互矛盾的幾個主要因素交叉,人要在諸因素間求得平衡,就要權衡利弊,從重就輕,形成權重。有固定不變的權重,更有變動的權重。因素的權重就成為一個特殊的研究課題。
因素的權重可以看做是因素的線性或非線性變換。模式識別的實踐,常常要求對因素作這樣那樣的變換,才能把真正分類的因子顯現出來。這叫做特徵抽取。 特徵也是因素,特徵抽取就是因素化隱為顯的過程。因素突顯是值得研究的重要課題。
6. 因素空間的勢與場
勢最佳化是事物產生和發展的動力,也是人腦思維的動理。因素空間存在著勢和最佳化問題。解一個線性規劃問題是一步求出最優解而忽略中間的尋優路徑和步驟。在因素勢最佳化中,最終的解是相對渺茫和次要的,眼前第一步該怎麼走?尋優的途徑是什嗎?卻是更現實更加關注的問題。
7. 時空因素及動態概念
物理分子運動的時空是因素空間。對於資訊處理和思維過程來說,時間是不可脫離的最基本的因素。一切事物都在運動,人類認知的本領不在靜物而在動態識別。有時間參與的動態曲線都離不開頻域的變換。更多的數學工具才能用上。
8. 因素空間的拓撲結構
人有形象思維,不僅藝術家有,數學家也有,他們認為在從事數學研究的時候,形象思維比邏輯推理還重要。這種形象究竟是什麼呢?心理學家有初步解釋。歐陽合教授認為,因素空間應當引入某種拓撲結構來捕捉思維的形象。他用代數拓撲對因素空間提出了深刻的見解。
9. 因素庫的不確定性
因素庫中資料是否具有不確定性?這要看資料的來源和用途。1. 若直接用在釋義。且從資料向意義轉化時所作的判斷是確定性,例如,有大鬍子的必定是男子,沒有懸念,這種釋義叫做確定性釋義。在多數定量學科的認知單元裡所遇到的概念提取問題多屬確定性釋義。2. 若直接用在釋義。且從資料向意義轉化時所作的判斷是不確定的,例如資料是‘27歲,性格老成’向‘青年’或‘中年’ 釋義,這時就不好下判斷了,具有不確定性,這種釋義叫做不確定性釋義。概念劃分時所出現的不確定性,應當歸於模糊性。在多數定性學科的認知單元裡所遇到的,多是模糊性釋義。模糊性是人腦思維的一大特點,善加利用模糊性可以高效率地傳遞資訊。為了簡單,我們現在先用經典集合論來建立因素空間的理論。下一步,我們要用模糊集合論來推廣,從背景關係到概念,規則的提取都需模糊化,以適應模糊性釋義的需要。3. 間接用在釋義,採集是隨機的,這種資料叫做隨機性資料。必須動用機率統計方法。必須承認,至今在模式識別和分類等問題中有效演算法還是以機率統計方法為主。這是因為認知單元的識別方法還沒有真正啟動,上概念的屬性描述沒有被用上,在斷層上孤立地依憑一組變數(不一定是一組單元因素),從而,確定性釋義不見或少見。但是,即使認知識別的方法啟動以後,任然要動用大量的隨機資料,運用機率統計。而模糊性的處理也可轉化為隨機集,歸根結底,也涉及機率統計方法。所以,機率統計方法仍然是因素庫的重要支柱。
10.資料的同化問題(異構資料處理的統一架構)
按照徐宗本教授所說,這是大資料處理的一個痛點。因素空間可以成為異構資料處理的統一架構。它既是描述一切事物的架構,就可以同時接納圖片,音響和文字等異構的資料。對它們的處理都集中在‘釋義’二字上。根據任務的需求,從粗概念開始,先作大劃分,逐步細化。遇到障礙,還可以用因素藤,把異構資料符號化,對它立一個檔(子因素空間)懸掛起來。隨時調用。在人們還沒有找到異構資料的統一架構以前,不妨用因素空間作這樣的調用和處理。
為了構建人機認知體的巨大工程,還需要做好兩件事情:
11. 編製因素辭典
人機認知體由人機認知單元耦合而成。耦合的關鍵是要有一部因素詞典。詞典的編撰形式是:
上概念名稱$\rightarrow$單元因素名稱$\{f_1,\cdots,f_k; f_{k+1},\cdots,f_n\}$
其中,$f_1,\cdots,f_k$是主要因素,$f_{k+1},\cdots,f_n$是次要因素,都按提取概念的重要性排序。它們將被用作因素庫的表頭。
因素詞典同樣面臨著詞典學所存在的普遍問題。如何做到類別清晰,減少重複,避免衝突,是需要研究的問題。
另外一個痛點是,同一上概念,在不同的時間,地點和不同群體的概念劃分中若出現變異,則因素詞典對此上概念的描寫便過於粗糙。此時,表頭還需加註。何時加?如何加?這都是麻煩事。
12. 建立因素庫語言
人機認知體的功能是能輸出智能資訊。每一種智能資訊都是回答一個問題。這些問題的形式不外乎:這是什嗎?為什麼是這樣?此事發生,將會引起什麼後果?遇到此問題,該怎麼辦?什麼是關鍵?怎樣控制某變數? 如此等等,它們都是運用概念,進行判斷和推理,以及基於判斷和推理的其它思維過程。人機認知系統要求直接以自然語言來提出問題。我們所希望建立的語言,第一是方便使用者,都能掌握,第二是包容性。這種語言不排斥其它任何語言,都要與之相容。這才是最方便的語言。在這方面,範疇理論可能為不同語言之間的翻譯提供重要工具。
三,近年的工作進展
以遼寧工程技術大學智能科學與數學研究院為基地,在中科院虛擬經濟與資料科學研究中心的支援下,我們聯合申請了一項國家自然科學基金委主任基金項目,進一步開展因素空間在資料科學的應用研究。其進展如下:
- 圍繞任務1. 我們編寫了基本演算法1。給了結構化的資料樣本, 用最少因素提取出基本概念半格。(有多個版本在競爭中錘鍊)在形式概念分析及粗糙集中都有同一目的的演算法。效果良好,尚待比較。
- 圍繞任務 2. 我們編寫了基本演算法2。給了結構化的資料樣本,用最少因素提取出從條件因素到結果因素的推斷規則。(有多個版本在競爭中錘鍊)在形式概念分析及粗糙集 和決策樹中都有同一目的的演算法。效果良好,尚待比較。
- 圍繞任務 2 我們編寫了基本演算法3:給定背景樣本R*,提取背景基樣本B*。
- 圍繞任務 2 我們正在編寫基本演算法4:給定背景基樣本,面臨一個新樣本點,怎樣調整背景基樣本?
- 演算法3,4在形式概念分析與粗糙集中都沒有相應的論題,這是因素庫所專屬的方法。
- 圍繞任務 2 我們正在編寫基本演算法5。給定背景樣本R*,先壓縮到背景基B*,再提取推斷規則。以便驗證背景基的資訊內涵。
- 圍繞任務 6 我們正在編寫基本演算法6:給定最佳化方向及一組線性約束,找出從給定點出發的前若干步的最佳化途徑。在理論上解決了一個向量向多面之交投影的問題。
- 後面諸項任務正在組織中。尤其是任務10,對非結構化資料進行處理。值得一提的是:圍繞任務3,4,5,李洪興,劉增良,羅承忠,袁學海,蘇秀雯等在上世紀末寫了相當數量的論文,對我們的後續工作有重要協助。
四、人機認知體的構建
什麼是人機認知體?人機認知體是帶著一定目的,有一定認知功能,接受網路資訊,並有人蔘與的對所在系統進行監測、組織、管理、控制的軟硬體系統。
無人機是一種人機認知體,它是為避免飛機駕駛員的傷亡對敵進行偵查打擊的由軟體駕駛的飛行器。它有識別地面目標和人物特徵的認知功能,它的飛行計劃要接受網路資訊的調整,它的作戰過程需要人的配合,它是硬體,但駕駛軟體卻是靈魂。
超市的收銀機不是一個人機認知體,因為它只會收錢和記錄交易,沒有認知功能。但若把收銀機的功能擴大,增加列印的資訊,再把因素空間的幾個基本演算法放進去,自動提取與緊俏商品和顧客時尚有關的概念及因果推斷規則,再由銷售經理或專家及時來讀取並掌控這些知識,對市場因素進行人為的分析,結合網路資訊,知己知彼,改善經營,服務百姓,它就變成一個人機認知體了。超市如此,其它何嘗不如此?現在,美國的大商家,大銀行家早已在作運營機方面的盤算了,也可能還沒有上升到人機認知體的高度。但實踐比理念更重要,我們切不可觀望,坐失良機!
無人機是一個比較極端的例子,它的自動化程度太高了,現成的識別和控制技術已經差不多夠用了。多數人機認知體的自動化程度沒這麼高,需要智能描述和應用因素空間的地方就更多。例如社區管理,很多社區還沒有什麼硬體裝置。這可是最需要建立康樂社區人機服務體系的地方。當前最需要做的是硬體設施。就像超市先要有收銀機那樣,先把社區的醫學,房屋,水電氣,幼兒園,學校,養老院,環境衛生,文化娛樂,鄰裡關係,治安消防等方面的資訊網路分門別類地建立並聯絡起來。即使沒有智能也不要小看,有了這個系統,就可以用因素空間的理論和方法擴充為各個認知單元,再由認知單元耦合成人機認知體。社區幹部和居民是人機認知體的建設者和參與者,因素空間不單是一們數學,也是一種方法論,通俗地介紹給大家,遇到問題,就往因素上找原因,找出路,抓主要因素和因素間的轉化。
人機認知體將有千千萬萬。按行業分,有各行業的人機認知機。按功能形態分有目標最佳化型的(如發展系統)和因素平衡型的(如安全系統)。無論怎樣劃分,有以下幾條通則:
- 每一種專門的系統結構必定帶有相應的概念結構。人機認知系統的認知單元若掌握了相關的概念結構,便達到了專家的水平。反之,就像專家系統必須有專家的特殊經驗才能建立一樣,只有掌握實際系統的概念結構,認知單元的概念描述才能建立起來。
- 每一個人機認知體都是在一定的環境中建立的,認知體的功能是要在環境因素和內在的結構因素之間尋機最佳化或維持平衡。結構是為適應功能的需求而產生,人機認知體的主動性表現在它力求調整自己的結構(內因)以適應環境(外因)。這一點是崔鐵軍所提出的觀點。
- 每一個人機認知體,都吐納著網路的資訊流,它必須有吐故納新的機制,否則便不能生存。因素空間的背景基的基本演算法4,對於資料流中每一個新來的樣本點,都要隨時調整背景基,就是一種吐故納新的機制。
- 在構建人機認知體的過程中,最難繞開的是資料的所有權問題。由於這個問題,人家有資料你卻不能用。因素空間理論有一個重要特點就是,我們所用的資料不涉及人的隱私。我們只要因素空間上的屬性分布,不需要問這些是誰身上的屬性。 無隱私的資料是不應該當作私人財產或商品的,只有解決無隱私資料的使用權問題,才能快速實施人機認知體的構建。當然,這還需要從法律側面上進行論證。
最後需要強調一點,人機認知體是自組織的生態系統。且看未來,成千上萬的人機認知體即將迅速出現,滲透和影響到人類生活的方方面面。世界各大國之間將為人機認知體的發展而拼搏。這是一個不以人們意志為轉移的客觀現實。無法逃避避,只有積極營造。我們要想實現自己的強國夢,就必須集中優勢兵力,在國家有關部門自上而下的組織和領導下,各行各業同心協力,從一個個小的認知單元做起,自下而上地開展一個構建人機認知體系的偉大工程。
2015年1月8日
因素空間理論在大資料中的應用——汪培莊