來源:互聯網
上載者:User
關鍵字
大資料
大資料
人們
大資料
人們
可以
大資料
人們
可以
存在
大資料
人們
可以
存在
但是
美國《外交政策》雜誌網站日前發表題為《對大資料的再思考——為什麼機器的興起並不完全像人們吹噓的那樣》的文章,作者為微軟研究院首席研究員、麻省理工學院公民媒體中心客座教授凱特·克勞福德。
文章稱,「大資料」是當前的時髦術語,是技術界用來解決世界上最難處理的問題的全能辦法。 這個術語一般用來描述對海量資訊進行分析,從而發現規律、收集感悟和預言複雜問題答案的藝術與科學。 它也許聽起來有些乏味,但是從制止恐怖分子到消除貧窮,再到拯救地球,對於大資料的鼓吹者來說,沒有什麼問題是解決不了的。
維克托·梅耶-舍恩伯格和肯尼士·丘基爾在有著樸素書名的《大資料:一次將改變我們生活、工作和思考方式的革命》一書中歡呼道:「對社會的好處將是無窮無盡的,因為大資料在一定程度上將解決迫在眉睫的全球問題,如處理氣候變化、 根除疾病以及促進善政和經濟發展等。 」
文章稱,只要有足夠多的資料可以處理——不管是你的iPhone上的資料、雜貨店購物狀況、線上約會網站個人簡介或者是整個國家的匿名健康記錄,利用對這些原始資料進行解碼的計算能力,人們可以獲得數不勝數的洞察。 甚至連奧巴馬政府也已經趕上了這股潮流,並在5月9日向企業家、研究人員和公眾「破天荒」地發佈了大量「以前難以獲取或難以管理的資料」。
然而,大資料真的完全像人們吹噓的那樣嗎? 人們能相信如此眾多的1和0將能揭示人類行為的隱秘世界嗎?
「有了足夠的資料,數位就可以自己說話。 」沒門兒。
文章指出,大資料的鼓吹者希望人們相信,在一行行的代碼和龐大資料庫的背後存在著有關人類行為模式的客觀、普遍的洞察,不管是消費者的支出規律、犯罪或恐怖主義行動、健康習慣,還是雇員的生產效率。 但是許多大資料的傳道者不願正視其不足。 數位無法自己說話,而資料集——不管它們具有什麼樣的規模——仍然是人類設計的產物。 大資料的工具——例如ApacheHadoop軟體框架——並不能使人們擺脫曲解、隔閡和錯誤的成見。 當大資料試圖反映人們所生活的社會化世界時,這些因素變得尤其重要,而人們卻常常會傻乎乎地認為這些結果總是要比人為的意見來得客觀些。 偏見和盲區存在於大資料中,就像它們存在於個人的感覺和經驗中一樣。 不過存在一種值得懷疑的信條,即認為資料總是越大越好,而相關性也等同于因果關係。
例如,社交媒體是大資料分析的一個普遍的資訊源,那裡無疑有許多資訊可以挖掘。 人們被告知,推特網的資料顯示人們在離家越遠的時候越快樂,而且在週四晚上最為沮喪。 但是存在許多理由對這些資料的含義提出質疑。 首先,人們從皮尤研究中心獲悉,美國上網的成年人中只有16%使用推特網,因而他們絕對不是一個具有代表性的樣本——與整體人口相比,他們中年輕人和城市人的比例偏多。 此外,人們知道許多推特帳號是被稱作「機器人」程式的自動程式、虛假帳號或是「半機器人」系統(即得到機器人程式輔助的人為控制帳號)。 最近的估計顯示,可能存在多達2000萬個虛假帳號。 因此就算人們想要踏入有關如何評估推特網使用者情緒的方法論雷場之前,請先問一下這些情緒究竟是來自真人,還是來自自動化演算法系統。
「大資料將使我們的城市變得更加智慧和高效。 」在一定程度上是的。
文章稱,大資料可以提供説明改善城市的寶貴見識,但是它對人們的説明僅此而已。 因為資料在生成或採集的過程並不都是平等的,大資料集存在「信號問題」——即某些民眾和社區被忽略或未得到充分代表,這被稱為資料黑暗地帶或陰影區域。 因此大資料在城市規劃中的應用在很大程度上取決於市政官員對資料及其局限性的瞭解。
例如,波士頓的StreetBump應用程式是一個比較聰明的以低成本收集資訊的途徑。 該程式從開車經過路面坑窪處的駕駛員的智慧手機上收集資料。 更多類似的應用正在出現。 但是如果城市開始依靠僅來自智慧手機使用者的資訊,那麼這些市民只是一個自我選擇樣本——它必然導致擁有較少智慧手機使用者的社區的資料缺失,這樣的社區人群通常包括了年老和不那麼富有的市民。 儘管波士頓的新城市機械辦公室作出了多項努力來彌補這些潛在的資料缺陷,但不那麼負責的公共官員可能會遺漏這些補救措施,最終會得到不均衡的資料,從而進一步加劇已有的社會不公。 人們只要回顧一下曾經過高估計了年度流感發病率的2012年「谷歌流感趨勢」,就可以認識到依賴有缺陷的大資料可能給公共服務及公共政策造成的影響。
在網上公開政府部門資料的「開放政府」計畫——如Data.gov網站及「白宮開放政府計畫」——也存在同樣的情況。 更多的資料未必會改善政府的任何功能,包括透明度和問責,除非存在可以使公眾和公共機構保持接觸的機制,更不用說促進政府解釋資料並以足夠的資源作出反應的能力。 所有這些都非易事。 事實上,人們身邊還沒有很多技能高超的資料科學家。 各大學目前正在爭相定義這一行當、制訂教程和滿足市場需求。
「大資料對不同的社會群體不會厚此薄彼。 」幾乎不是這樣。
文章指出,對大資料所號稱的客觀性的另一個期待是對於少數群體的歧視將會減少,因為原始資料總是不含社會偏見的,這使得分析可以在大規模的水準上進行,從而避免基於群體的歧視。 然而,由於大資料能夠作出有關群體不同行為方式的論斷,它們的使用通常恰恰就是為了實現這個目的——即把不同的個體歸入不同的群體中。 例如,最近有一篇論文指科學家聽任自己的種族偏見影響有關基因組的大資料研究。
大資料有可能被用來搞價格歧視,從而引發嚴重的民權擔憂。 這種做法在歷史上曾被稱為「劃紅線」。 最近,劍橋大學對臉譜網5.8萬個「喜歡」標注進行的大資料研究被用來預測使用者極其敏感的個人資訊,如性取向、種族、宗教和政治觀點、性格特徵、智力水準、快樂與否、成癮藥物使用、父母婚姻狀況、年齡及性別等。 記者湯姆·福爾姆斯基這樣評價該項研究:「此類容易獲得的高度敏感資訊可能會被雇主、房東、政府部門、教育機構及私營組織用來對個人實施歧視和懲罰。 而人們沒有任何抗爭的手段。 」
最後考慮一下在執法方面的影響。 從華盛頓到特拉華州的紐卡斯爾縣,警方正在求助於大資料的「預測性警事」模型,希望能夠為懸案的偵破提供線索,甚至可以説明預防未來的犯罪。 不過,讓警方把工作專注于大資料所發現的特定「熱點」,存在著強化警方對聲譽不佳的社會群體的懷疑以及使差別化執法成為制度的危險。 正如某位警察局長撰文指出的,儘管預測性警事演算法系統不考慮種族和性別等因素,但是如果沒有對差別化影響的考慮,使用這種系統的實際結果可能「會導致警方與社區關係惡化,讓公眾產生司法程式缺失的感覺,引發種族歧視指控, 並使警方的合法性受到威脅。 」
「大資料是匿名的,因此它不會侵犯我們的隱私。 」大錯特錯。
文章稱,儘管許多大資料的提供者盡力消除以人類為物件的資料集中的個體身份,但身份重新被確認的風險仍然很大。 蜂窩電話資料看起來也許相當匿名,但是最近對歐洲150萬手機使用者的資料集進行的研究表明,只需要4項參照因素就足以挨個確認其中95%的人員的身份。 研究人員指出,人們在城市中走過的路徑存在唯一性,而鑒於利用大量公共資料集可以推斷很多資訊,這使個人隱私成為「日益嚴重的擔憂」。
但是大資料的隱私問題遠遠超出了常規的身份確認風險的範疇。 目前被出售給分析公司的醫療資料有可能被用來追查到個人的身份。 關於個人化醫療有很多談論,人們的希望是將來可以針對個人研製藥物和其他療法,就好像這些藥物和療法是利用患者自己的DNA製作出來的。 就提高醫學的功效而言,這是個美妙的前景,但這本質上依賴于分子和基因水準上的個人身份確認,這種資訊一旦被不當使用或洩露就會帶來很大的風險。 儘管像RunKeeper和Nike+等個人健康資料收集應用得到了迅速發展,但在實踐中用大資料改善醫療服務仍然還只是一種願望,而不是現實。
高度個人化的大資料集將成為駭客或洩露者覬覦的主要目標。 維琪揭密網一直處在近年幾起最嚴重的大資料洩密事件的中心。 正如從英國離岸金融業大規模資料洩露事件中看到的,與其他所有人一樣,世界上最富有的1%人口的個人資訊也極易遭到公開。
「大資料是科學的未來。 」部分正確,但它還需要一些成長。
文章指出,大資料為科學提供了新的途徑。 人們只需看一下希格斯玻色子的發現,它是歷史上最大規模網格計算專案的產物。 在該專案中,歐洲核子研究中心利用Hadoop分散式檔案系統對所有資料進行管理。 但是除非人們認識到並著手解決大資料在反映人類生活方面的某些內在不足,否則可能會依據錯誤的成見作出重大的公共政策和商業決定。
為了解決這個問題,資料科學家正在開始與社會科學家協作。 隨著時間的推移,這將意味著找到把大資料策略和小資料研究相結合的新途徑。 這將遠遠超越廣告業或市場行銷業採用的做法,如中心小組或A/B測試(即向使用者展示兩個版本的設計或結果,以確定哪一個版本的效果更好)。 確切地說,新的混合式方法將會詢問人們做某些事情的原因,而不只是統計某件事情發生的頻率。 這意味著在資訊檢索和機器學習之外,還將利用社會學分析和關於人種學的深刻認識。
技術企業很早就意識到社會科學家可以説明它們更加深刻地認識人們與其產品發生關係的方式和原因,如施樂公司研究中心就曾聘請了具有開拓精神的人類學家露西·薩奇曼。 下一階段將是進一步豐富電腦科學家、統計學家及眾多門類的社會科學家之間的協作——不僅是為了檢驗各自的研究成果,而且還要以更加嚴格的態度提出截然不同的各類問題。
考慮到每天有大量關於人們的資訊——包括臉譜網點擊情況、全球定位系統(GPS)資料、醫療處方和Netflix預訂佇列——被收集起來,人們遲早要決定把這樣的資訊託付給什麼人,以及用它們來實現什麼樣的目的。 人們無法回避這樣的事實,即資料絕不是中立的,它很難保持匿名。 但是人們可以利用跨越不同領域的專業知識,從而更好地辨別偏見、缺陷和成見,正視隱私和公正將面臨的新挑戰。 (參考消息網 曹衛國/編譯)
(責任編輯:蒙遺善)