標籤:style http color 使用 strong ar 資料 2014 div
大資料近幾年一直很火,不過隱私也成了關注點。大資料會收集人們高度隱私的資料,比如病歷或購物記錄,再通過“分離識別”程式來匿名。如此一來,人們就不用擔心個人隱私泄露了。不過事情真那麼簡單嗎?
大資料時代的匿名化並非100%
普林斯頓的電腦科學家艾文德奈瑞 · 亞南,曾在2006年發表的一篇文章中稱,在本該匿名的互連網電影資料中,Netflix使用者的各種租借曆史資料卻能在交叉引用過程中被泄露。亞南登在7 月9日的一份報告中稱,匿名化支援者們(認為匿名化可行的人)也許還沒預感到當下大資料中的危險漏洞。
不管是理論上還是實踐中,匿名化的作用並不大。那些認為匿名化很安全的人,其實是在營造一種“偽安全感”,嚴重低估了那些資料駭客的威脅力,他們很有可能從大資料中竊取到個人資訊。
個人地理位置資料並未被隱藏
一份2013年的報告稱,從人們的手機中收集到的龐大資料群組中看來,95%的手機使用者能被監測到,因為他們在網上總會留下登入痕迹,即時照片分享資訊。匿名化專家們會坦白地告訴你,根本沒辦法隱藏使用者的地理位置資訊。
資料庫防線多麼脆弱,專家也無法預知
在一份11萬3千名病人的病歷案例研究中,匿名處理專家埃阿曼估計,不到1%的病人資料能做到再識別。但,亞南估計超過12%的病人資料能被鎖定。襲擊者要在資料庫中鎖定目標資料,簡直是輕而易舉。
匿名化很難,而資料再識別可永久
資料匿名化過程充滿挑戰,也容易發生錯誤。在近期發表紐約市一億七千三百萬組有關計程車的資料中,包括司機都可能被重新識別出來,因為在駕照上使用的資料散列法(一種將字元組成的字串轉換為固定長度的數值或索引值的方法)也是粗製濫造的。
如果某人的匿名資料被公開,那麼會一直存在於網上,不會消除。這比起某公司或某應用軟體資料被入侵要嚴重的多了 。當一家公司的資料庫被入侵了,只需要做好安全工作:修複資料漏洞,警報通知各使用者,一切照常進行。 但是,這不代表我們要放棄使用資料,只需放棄被泄露的資料帳號即可。
在一份11萬3千名病人的病歷案例研究中,匿名處理專家埃阿曼估計,不到1%的病人資料能做到再識別。但,亞南估計超過12%的病人資料能被鎖定。襲擊者要在資料庫中鎖定目標資料,簡直是輕而易舉。
資料匿名化過程充滿挑戰,也容易發生錯誤。在近期發表紐約市一億七千三百萬組有關計程車的資料中,包括司機都可能被重新識別出來,因為在駕照上使用的資料散列法(一種將字元組成的字串轉換為固定長度的數值或索引值的方法)也是粗製濫造的。
如果某人的匿名資料被公開,那麼會一直存在於網上,不會消除。這比起某公司或某應用軟體資料被入侵要嚴重的多了 。當一家公司的資料庫被入侵了,只需要做好安全工作:修複資料漏洞,警報通知各使用者,一切照常進行。 但是,這不代表我們要放棄使用資料,只需放棄被泄露的資料帳號即可。
那麼,我們要不要砸碎手機,放棄醫學(醫學資料泄露),直接隱居山林呢?但埃阿曼教授卻不太認同,他極力支援匿名化技術,並表示:“亞南稱超過 12%的病人資料能被鎖定,但他並沒有對單個病人的資料進行再識別。如果亞南是再識別技術領域的引領者,那麼匿名化是非常可行的。”
這對我們這些處在大資料時代中的人來說,是一個大好訊息。但是,大資料匿名化沒有崩盤,不代表匿名化技術堅不可摧。
大資料時代不可能匿名