(原文來自FT,虎嗅編譯)
愛德華?斯諾登曝光NSA監聽之後,喬治·奧威爾著作《1984》的銷量都增加了。 就目前的情況來說,即使人們不喜歡老大哥在監視自己,也要準備好接受隱私被冒犯的代價,來換得安全保障。
那麼「大資料」會怎麼樣? 快速增長的個人資料掌握在公司們手中,它們使用新型的資料分析和人工智慧技術來改進自己的產品和服務,預測顧客的需求。 谷歌首席執行官拉裡?佩奇(Larry Page)描述他心目中理想的科技形態是「一個真正智慧的助理,能夠幫人類去做事,我們就不必再費腦筋」。
試想一下居住在虛擬的唐頓莊園(Downton Abbey)裡,有一台電腦幫你安排一天的計畫,給出旅行的最佳路線建議、可能想要觀看的影片和最適宜搭乘的航班——甚至幫你訂票——這的確有誘惑力。 我們都在趕時間,想要一個簡單輕鬆的生活。 只要不被資訊轟炸或是迫失選擇,有個私人助理服務還是不錯的。
但是NSA監聽事件讓所有人大吃一驚,雖然監聽計畫已經存在60年了,我懷疑許多人是否能明白他們每天製造的資料量有多大,或者是否瞭解如今科技發展到怎樣的程度——一小撮大資料公司已經在進行資料採礦。 科技發展得太快,兩年前還認為是不可能的事情如今已經十分平常了。
「未來既令人激動又讓人恐懼。 擁有海量資料的公司們甚至要比你還要瞭解你自己。 它們能預測你下面可能做什麼,」李開複說。 他是Google中國的前任CEO,目前在北京做投資。
上周我在一篇專欄文章裡將谷歌與19世紀的通用電氣進行了比較——這是一家創新的工業公司,借助了在新技術潮流發展的力量。 不利的一面是谷歌、亞馬遜、微軟以及其他科技巨頭正在積累自己的力量,需要小心翼翼地控制。
NSA和大資料公司將它們的資料庫和計算能力用在了不同的地方——一個是發現間諜和恐怖分子,一個是為使用者匹配服務。 它們對大規模資料庫的使用有相似之處,比如模式識別和網路分析等等。
更進一步來看,這涉及到人工智慧技術,比如在使用者輸入關鍵字時分析搜索的目的、即時將演講翻譯成另外一種語言(像微軟去年在中國演示的那樣)、通過讀取上千張圖像去學習分辨一隻貓的照片。
電腦學習人類趨同行為的能力被稱作是「深度學習(deep learning)」,值得注意的是谷歌已經聘請了該領域的幾位前沿學者,其中就包括科學家、作家雷·庫茲韋爾(Ray Kurzweil)。 NSA向美國私人公司開放的技術轉讓中就有「領先的機器學習技術」。
這種軟體可以從資訊碎片中預測許多東西,只要碎片足夠多就可以,好像NSA從運營商Verizon那裡獲取電話撥叫中繼資料並對其分析一樣。 總統奧巴馬向美國公民保證「沒人在竊聽你的電話」,但是只要撥叫紀錄就足夠了。
哈佛大學教授拉坦婭·斯威妮(Latanya Sweeney)的一項研究表明,有87%的人在獲知年齡、性別和郵遞區號的情況下能夠被確認身份,只要在公開資料庫裡交叉確認(cross-checked)就可以。 這恰恰是社交網路和互聯網公司通常所收集的資料。
大資料公司的驚人能力來自一點,它們可以將顧客的個人資料進行整合,其中就涵蓋購買的何種商品、位置在哪裡(由行動電話的GPS搜集)。 由此生成一組有關顧客意圖的「推測資料(inferred data)」。
舉例說明,如果我在印度時用安卓手機搜索「泰姬陵」,谷歌會優先顯示北方邦(Uttar Pradesh)的神廟結果。 如果我在倫敦東部的布裡克街(Brick Lane),則會返回本地的孟加拉風味餐廳結果。 基於我的評價紀錄提供餐館預訂服務也就不難實現了。
從一方面來說,如果確實做到這一點(只要是一家好餐廳)我會很高興,因為能夠節省我的一些操作。 從另一方面來看,正如9374.html">世界經濟論壇關於個人資料的報告裡所講:「預測資料給人感覺好像無所不知的老大哥在盯著監控錄影一樣。 」
其中引發的擔憂之一是掌握這種軟體能力的大資料公司很難與之抗衡。 我和其他使用者提供的資料越多,它們對我們意圖的預測就越準確。 機器大腦越用越精明。
另外一個和信任有關。 社交網路在保護使用者資料方面做得很差,它們只擁有一小片段涉及使用者行為、習慣和意願的資訊。 很明顯為什麼NSA會把社交網路作為目標——NSA有計算能力,他們需要資料原料。
第三點是擁有權的問題。 我們都對自己的資訊享有一定的權利。 但是這些資訊和其他人的資訊被整合到一個大規模的意願資料庫中,情況會有什麼變化? 如果我改變主意,如何讓資訊恢復原狀?
最重要的一點,我們不知道這種技術意味著什麼,因為我們還處於大資料時代的初級階段。 誠然大資料有許多地方令人傾佩,但是需要一些時間讓人們愛上它。
(責任編輯:蒙遺善)