問題一:大資料屬於誰?
杜小勇:獲取、記錄資料需要耗費資源,因此,資料也就具有了資產的屬性。 在大資料出現以前,資料依附于具體業務而存在,人們更多的關注在使用資料的軟體系統上。 沒有軟體的使用,就沒有資料的價值。 當時有關資料的歸屬問題並不那麼突出。 在大資料時代,資料可以作為一種獨立的存在,其「資產」性價值越來越引起人們的重視。
資料是物理世界客觀事物性質、狀態的反映,這是客觀存在。 你去收集了,有特定的表達形式,自然特定格式的資料就是你的。 個人、企業、政府、組織都可以合法地去收集資料。 如果違反了現有法律收集了資料,自然也是非法擁有,資料財產也是非法的了。
肯尼士·丘基爾:個人、企業、政府等都可能是資料的擁有者。 比如,移動運營商收集個人使用全球定位系統的定位資料。 這種情況下,個人成為大資料的來源,移動通信公司投資並收集大資料,以向使用者提供更好的服務。 類似地,政府可擁有特定的資料,如人口普查資料、天氣資訊、郵遞區號等。 不過,我們會對大資料如何使用或者是否應該被收集施加一些限制。
黃智生:隨著智慧手機、網路和衛星定位系統的普及,每個人的一舉一動都會產生很多資料。 個體在購買手機、簽署手機合同之時可能就同意手機網路公司有權獲得個人位置之類的資訊了。
今後的資料歸屬權與個人隱私的概念可能越來越無關,而且隨著時間的推移,人們對於隱私的看法也在發生改變。 以個人位置資料資訊為例,以前,人們肯定很不樂意自己的行蹤被別人獲知。 如今,似乎沒有人為了不讓別人知道自己的行蹤而不使用手機。
歐洲民眾要求政府公開資訊的訴求越來越強烈,歐盟和歐洲各國的立法也在向這個方向推進。 以荷蘭為例,除了涉及國家安全和個人隱私的公共資訊外,大部分資訊都已經實現了公開。 民眾也有權向政府申請資訊公開。
朱揚勇:關於資料財產,目前法律上存在空白,套用目前的物權法或著作權法等相關法律可能都有些問題。 所以,我們只能來談談資料權益歸屬的合理性問題。 因為資料不是天然存在的,所以,「資料應該屬於資料的生產者」的說法比較合情合理。 但是,很多時候資料擁有者很難主張權利,這需要將來制定相應的法律來解決。 現在面臨的問題主要有兩個:一是當資料有多個生產者時如何界定;二是當生產的資料涉及秘密和隱私時如何界定。
對於第一個問題,可以通過協商解決。 例如,某人在電子商務網站購物,購物行為生產的資料是可以由購物者和電商(可能還有協力廠商支付平臺)共同擁有。 一般情況下,個人購物資料對個人幾乎無用,目前被電商無償佔有了。 再比如,微博資料現在幾乎已經作為個人資產來看待了,因而微博運營商就不能無償佔有使用微博資料,需要協商處理。 對於第二個問題, 就需要法律來界定了。 例如,病歷資料是病人和醫生及醫院共同生產的,醫院銷售病歷資料就一定會遇到麻煩,這裡不是資料權益的主張問題,而是涉及病人的隱私問題。
問題二:大資料誰掌控?
肯尼士·丘基爾:沒有哪個機構或者哪個人會擁有大資料的最終控制權。 這取決於具體情況,即什麼類型的資料、用於何種目的。 例如,我們的智慧手機感應器可能會識別我們周邊的人。 這是否意味著我侵犯了別人的隱私呢? 也許是的。 但這不同于上世紀20年代中期大眾攝影時代發生的情形。 那個年代,如果有人在大街上對你拍照或者錄影,你會覺得受到了干擾。 但是,今天,當人們在巴黎盧浮宮前被數百台智慧手機拍攝時,大部分人是不會在乎的。
維克托·邁爾·舍恩伯格:我們仍處在大資料時代的初始階段,誰來掌控大資料或者誰來使用,在何種條件下又受到何種規範,大資料未來的儲存和流動方式等,都還處於未知的狀態,我們無法給出準確的答案。 但是社會的各個領域已經有很多這方面的嘗試,未來在這方面也一定會出現更多的創新。
未來對大資料規範管理的重點仍舊需要集中在個人資訊的使用方面,而不是資料的採集和交易過程。 採集資料的過程並不會帶來太多的麻煩,關鍵問題在於有可能產生資料濫用。 因為互聯網公司可以收集大量有價值的資料,而且有利用這些資料的強烈的利益驅動力,所以互聯網公司順理成章地成了最新處理技術的帶頭實踐者。 它們甚至超過了很多有幾十年經驗的線下公司,成為新技術的領銜消費者。 但事實上,政府才是大規模資訊的原始採集者,並且還在與私營企業競爭他們所控制的大量資料。
黃智生:目前網路上的資料龐大,但絕大部分資料都是由公司進行管理的。 比如個人的郵件系統,無論個人使用哪一家公司的郵件系統,供應商都可以看到這些郵件。 但是這些公司的員工必須遵守職業道德,而且有嚴格的調閱規章制度,法律中對私自查看或洩露別人網路隱私的行為也會進行嚴厲打擊。
公共資料可以由政府進行管理,但必須嚴格遵守法律。 在歐洲,個人、公司和組織有權拒絕向政府或執法機關提供資料。 比如,我在阿姆斯特丹留學期間,荷蘭警方要求我們學校提供所有華人留學生的住址,但學校表示,荷蘭法律沒有規定我們有義務向警方提供此類資訊。 但如果涉及國家安全,又有法律可循,那麼歐洲的政府是有權管理相關資料的。
問題三:大資料存多久?
維克托·邁爾·舍恩伯格:我們所處的時代之所以與眾不同,是因為資料的收集不再存在固有的局限性。 技術已經發展到一定程度,大量資訊可以被廉價地捕捉和記錄。 資料收集往往是被動的,人們無須投入太多精力,甚至不需要認識這些資料。 而且,由於存儲成本的大幅下降,保存資料比丟棄資料更加容易。 這使得以較低成本獲得更多資料的可能性比以往任何時候都大。 在過去50年中,數位存儲成本大約每兩年削減一半,而存儲密度則增加了5000萬倍。 大部分資料的直接價值對收集者而言是顯而易見的。 資料的基本用途為資訊的收集和處理提供了依據。
隨著時間的推移,大多數資料都會失去一部分基本用途。 在這種情況下,繼續依賴于舊的資料不僅不能增加價值,實際上還會破壞新資料的價值。 然而,並非所有的資料都會貶值。 有些公司提倡盡可能長時間地保存資料,即使監管部門或公眾要求它們短時間內刪除或隱匿這些資訊。 這就解釋了為什麼一直以來,谷歌都拒絕將互聯網協定位址從舊的搜索查詢中完全刪除。 谷歌希望得到每年的同比資料,如假日購物搜索等。
黃智生:目前似乎沒有法規要求在一定的時限後銷毀資料。 如銀行的個人財務資訊等內容,反而要求一定期限內不准銷毀。 而且現在存儲資料的成本很低,所以各公司都儘量將各自產生的資料儲存下來。 雖然世界主要技術公司的總部大多在美國,但並非所有的資料都儲存在美國,世界各地都會有這些公司的伺服器和存儲系統。 不過這些技術公司的高級管理人員可以很容易地查閱到世界各地的資料。 從這個方面來講,存放在哪裡並不重要,只要網路能連接就可以了。 如美國政府搜集的所謂「事關國家安全」的資訊,政府更不會將其銷毀,只會越積越多。 相對於較低的儲存成本,真正耗資的是篩選和運算成本。 從山一樣的資料中挑選砂一樣的有用資訊,實在很困難。
雖然目前WEB3.0系統已經能夠做到低智慧、大資料量的篩選工作,但依然達不到實戰需要,代替不了人的作用。 這如山一樣的資料,是政府的一種負擔,也是一個雞肋。 但不能說這些資料就沒有用,比如警方確定了一個犯罪分子身份,就可以依法向網路服務商、手機服務商索取這個犯罪分子之前的所有資訊,並通過這些積累的資訊進行分析篩選。
法迪·謝哈德:互聯網名稱與數位位址分配機構(ICANN)成立之時完全由美國政府主導,招致許多非英語國家,特別是發展中國家人士的不滿。 互聯網功能變數名稱相當於網路空間的門牌號,本來是一個全球性系統。 ICANN在2009年與美國商務部簽署協定,此後不再對該部門負責,並使國際利益相關方在ICANN監管全球網域名稱系統時擁有更多發言權。 我們應該增加互聯網領域的透明度,而不讓某個國家或地區把互聯網控制起來,各國、各地區應該更加平等地分享網路資料資源。
杜小勇:擁有資料的組織可以決定資料放在哪、如何存、存多久等。 如果資料是企業的生命線,他自然會考慮安全、經濟、高效等多種因素。 為了資訊安全,企業一般會採取異地備份等成本更高的手段。 據稱,「9·11」事件後,有些擁有更完善的資料備份體系的公司很快就恢復了業務,而另一些公司則由於資料損毀而走向破產。 企業資料要存多久,也是一個需要權衡各種因素後的決策。 這是企業自主的行為,除非建立在這些資料之上的業務還有其他法律上的要求。
我們可能關心的是另一個問題,即國家層面的資訊安全。 有人提出「資訊疆域」的概念。 也就是說,土地、海洋、空間都有國家的屬性(領地、領海、領空),網際空間中是否也有「主權」的概念? 大型跨國公司,通過種種業務滲透到日常生活的方方面面,因此可以採集到一個國家方方面面的資料。 於是,國外機構對一個國家情況的瞭解甚至有可能超過該國自身,這顯然會直接威脅到國家安全。
因此,國家對於跨國企業的資料傳輸、資料備份、資料使用等應有所限制,並進行監控,這十分必要。 國家應該對此立法保障。 有些資料有法律的保護,如測繪資料,其他更多種類的資料,目前還沒有類似的法律。
問題四:大資料怎麼用?
維克托·邁爾·舍恩伯格:隨著世界開始邁向大資料時代,社會也將經歷類似的地殼運動。 在改變我們生活和思維方式的同時,大資料早已在推動我們重新考慮最基本的準則,包括怎樣鼓勵其增長以及怎樣遏制其潛在威脅。 然而,不同于印刷革命,我們沒有幾個世紀的時間去慢慢適應,我們也許只有幾年時間。
在大資料時代,對原有規範的修修補補已經滿足不了需要,也不足以抑制大資料帶來的風險,我們需要全新的制度規範。 我們需要設立一個不一樣的隱私保護模式,這個模式應該更著重于資料消費者為其行為承擔責任,而不是將重心放在收集資料之初取得個人認可上。
肯尼士·丘基爾:對大資料技術進行規范是問題的關鍵。 首先,可以從強調監管大資料的收集,轉向重點監管大資料的實際使用。 其次,可以讓大資料變得不那麼神秘,不再是個「黑箱」,增加大資料應用中的透明度和問責制。 可創造一個被稱為「演算法學家」的新職業,這些人接受電腦技術、統計學和資料處理方面的專門訓練,對大資料的應用進行評估,以確保公眾對大資料系統感到放心。
至於平衡隱私權和國家安全的問題,古希臘哲學家亞里斯多德早就提出這樣的問題:「我們如何監視守護者? 」即使是在他那個年代,這個問題也沒有簡單的答案。
斯蒂夫·帕爾默:大資料給我們帶來的真正機遇是把許多資訊碎片拼起來,為我們的決策服務。 大資料時代最大的挑戰是如何從大資料中獲取「價值」。 從大資料中獲取最大價值,需要探索式的研究方法。 未來,資料科學家會很吃香,這種科學家既要熟悉商業環境,也要有操作層面的知識。
杜小勇:很多問題就出在資料使用上! 資料作為資產,就涉及管理的問題,因此「資料治理」就顯得越發重要。 資訊世界同樣需要公約,將竊取他人資料視為犯罪,將攻擊他人系統視為犯罪,從刑法上加以明確規定,共同營造一個文明有序的數位生活,應該是我們的理想。 大資料時代,我們需要儘快跟進這方面的工作,如開展國家間對話,形成公約。
企業利用資料採礦技術,進行精准廣告投放,也涉及隱私問題。 一個少女收到了嬰兒用品廣告,其父大怒,要告企業。 事實卻是這位少女未婚先孕了。 這個故事中,企業使用的是自己採集的客戶購物資料,使用的是自己開發的資料採礦軟體,整個過程都沒有問題。 但事實上卻侵犯了個人隱私,應堅決反對。 這裡面應該有一些法律問題,需要認真研究。
朱揚勇:「大資料時代,資料作為資源,不被共用是趨勢。 」這樣的話,資料運用一定需要價值交換。 在確定資料權益的前提下,資料的運用就是有償使用。 法律需要界定資料的權益,政府界定資料的類型(哪些是隱私,哪些涉及國家安全)等,這樣資料的流通就有法可依。
在現階段法律法規都還沒有明確之前,應從國家安全的角度高度關注資料資源的安全。 而作為個人,要明白「有行動就可能產生資料」,所以當有些行為涉及隱私時,需要謹慎。
從更大的範圍來講,公共網路中公開的資料應該屬於全人類,任何人都有權獲取、使用並獲益。 這樣能夠更大程度地發揮資料資源的作用,讓資料給人類的生活生產帶來更多便利,對人類社會進步有重要的意義