美國總統奧巴馬真得要感謝大資料的挖掘技術。 因為正是由於對大資料的掌控,他的競選團隊才會遠在去年11月份競選結果公佈之前就已信心十足地認為其將贏得大選。 這是怎麼一回事兒呢?
早在奧巴馬競選之初,一個由資料科學家組成的技術團隊就已經成立。 他們通過對歷史資料以及各類輸入因素的分析,在總統競選過程中,通過使用資料採礦技術對每一位選民建立精確的使用者偏好模型,從而得出其在大選當日選民投票的概率,以及結果會偏向哪一方。 同時,他們還不斷地更新他們的模型,以至於時刻可以知道選民們的意向變化。 這些模型建立在對選民的喜好以及行為資料的分析上,來自上千個數據源,其中包括往屆的投票記錄,對競選事項的各類回饋資料,數以千計的電話和線上採訪以及選民轉變觀點之後對競選結果的影響。
志願者們不但每週都在記錄更新選民們的個人偏好,還要評估各種可能改變他們觀點的因素,諸如演講內容,競選主題和某些關鍵事項。
這個團隊也會使用統計模型來指導志願者如何有效地說服一個搖擺不定的選民。 例如,一個來自加利福尼亞的志願者針對某一個特定問題能夠比其他州的志願者更有效地拉攏選民。
這個故事聽起來很奇特,但事實是,大資料採礦的應用在我們周圍已經漸漸變成常態,而它的核心則是資料。
更確切地說,是大資料,它涉及到我們周圍被數位化記錄的方方面面,例如,社交,工具,我們觀看的視頻,達成的交易,進行的網頁搜索,應用(手機App)的使用以及參加的大學線上課程,等等。
我們可以用石油工業與石油巨頭打個比方。 我們可以把這些資料類比成原油,要變成有用之才,需要經過勘探,開採和提煉加工。 與原油不一樣的地方在於,你所需要的並不是進行抽取加工石油的機器,而是資料採礦技術,將統計學、機器學習以及資料管理技術集結為一身的多學科技術。 同樣,處理原油的機器也不再由工程師,而是由資料科學家來操作。 資料科學家是一個新的產業,這些人才來自于多個領域,包括電腦科學以及人工智慧研究者,統計學家,資料存儲專家和社會科學家等等。
從資料中學習到的知識, 則可以被政治家、科學家、教育者以及商業管理者所使用,進行決策。
時至今日,資料採礦已經成為了我們日常生活的一部分。 我們使用的谷歌,搜索按鍵的背後是一個強大的資料採礦引擎。 通過對使用者點擊資料的挖掘,谷歌能夠預測你是誰,你要對資訊進行什麼樣的操作以及如何展示廣告使其能吸引你的注意。
當我們使用信用卡購買商品時,一個強大的資料採礦引擎也在背後運行著,用於判斷你的信用卡是否正被盜用。 而這背後的資料模型就建立在消費者以往幾十億條交易記錄的基礎上。
我們在羅湖過境時,採集我們指紋的機器背後也存在著由資料採礦演算法構建的模型,它會高速地確認當前站在機器前的人是否是你本人。
我們正處在一個新的大資料浪潮,而大資料採礦研究還處於初期階段。 即便如此,香港的學術界與工業界卻早已走在了此領域的前端。
在香港的大學裡,學者們對資料採礦的各個方面開展了研究:從設計準確的演算法,例如基於網頁、視頻、語音等資料,到研究如何在資料採礦的過程中保護使用者隱私。 新成立的華為諾亞方舟實驗室,也正在進行著幾個以大資料採礦為未來為目標的研究專案。
作者:楊強 華為諾亞方舟實驗室主任
(責任編輯:蒙遺善)