大資料應用
2012年3月奧巴馬政府發佈了「大資料研究和發展計畫」。 作為回應,美國國家科學基金會、美國國家衛生研究院、國防部、能源部和美國地質調查局都在投資大資料創新。 美國很多公司正在圍繞大資料的採集和利用能力來開展他們的商務工作,並將這些活動作為其產品或運營後端的一部分。 科研群體、政府和私營部門也正在加速生成各種主題的大規模資料集,包括:氣候變化、交通模式、健康和疾病資料、購買行為以及通過社會化媒體互動表現出的社會行為。 大資料應用的案例有:
Inrix公司和新澤西州運輸部之間的合作夥伴關係。 Inrix公司通過汽車和行動電話GPS裝置上的信號和資料,採集主幹道上的車速資料,然後即時向新澤西州運輸部警示任意主幹道上的路況險情,同時向司機的車載GPS裝置或行動電話發送警示來提醒司機注意路況險情。
氣候公司(The Climate Corporation)是一家天氣保險公司,他們製作保單來彌補聯邦農作物保險和因氣候造成的農民損失之間的差額。 該公司通過龐大的感應器網路分析和預測2000萬美國農田的氣溫、降水、土壤濕度和產量。 在知曉高溫天的天數以及土壤濕度資料後,建立的模型來説明其預判農民需要的天氣保險金額以及公司需要支付的保費。
紐約州能源研究和發展管理局運用一系列的大資料技術來評估氣候變化對紐約州的影響,並為農業、公共衛生、能源和交通運輸等領域提供應對氣候變化的策略。 這一應用也被引入美國疾病控制中心,它正與美國其他10個州和城市一起開展「閱讀州和城市計畫」,共同研究和應對氣候變化,而大資料技術是其中一個非常重要的組成部分。
開放政府資料
大資料戰略,往往建立在開放政府資料的基礎上。 開放政府資料在美國並不是一個全新的概念。 多年來,政府的資訊和資料在不斷變化,採集和發佈政府資料的方法和途徑也同樣經歷了這些變化。 開放政府資料在催生新的科學研究成果、加快經濟增長、為政策制定提供資訊以及制定為民服務的新政策方面都深具潛力。 有關開放政府資料的政策選擇將對大規模資料集應用的創新和研究、政府開放和透明以及其他眾多領域產生深遠影響。
作為奧巴馬政府開放政府計畫的一部分,2010年美國政府建立data.gov網站,向公眾開放「高價值」的資料集。 這一政府開放資料平臺現已可直接為使用者提供海量的原始政府資料,並期待使用者能挖掘這些資料的新的利用價值,從而以過去無法實現的方式加深我們對政府活動和更龐雜的社會事務的認知。 這些技術方法推動了資料的可獲取、開放和透明,同時又讓公眾、組織、社區和其他社會成員在現有資料的基礎上產生新的創新性認知。 作為一個面向公眾的平臺,它可成為一個促進協作、存儲資料集、推動社區參與和提供參與機會的工具。 除此之外,資料還可通過這些平臺以多種格式(如CSV,XML和Excel等)儲存和開放。 每種資料格式都有其特定含義,可限制或促進資料的應用。
現行政策分析
關於大資料和開放政府資料的一個關鍵問題是,政府資訊和資料的管理、使用、再利用和可獲取政策。 美國有一整套複雜且不斷變化的資訊政策(法律、法規和備忘錄),用來管理資訊的生命週期,從資訊的生成、資訊的傳播、再到資訊處理和歸檔,涉及到如何在資料可獲取、隱私、安全問題、數位資產管理、歸檔和保存等問題上尋求平衡。 這個政策框架儘管也不斷調整,但仍落後于技術的進步,這一脫節使人們對美國現行政策框架是否足以應對大資料帶來的問題產生了疑問,並提出以下幾個關鍵問題:
我們能確保資料的可獲取性嗎?在大資料時代我們如何保護隱私?我們如何確保資料的品質和準確性?在目前的歸檔和保存條件下,如何管理我們的數位資產?大資料時代我們能否發展有力的資料再利用政策?
下文將具體分析在大資料和開放政府資料時代,當前美國的資訊政策框架的現狀和滯後性,並給出了資訊政策調整的建議。
(一)資料可獲取和發佈
美國管理和預算辦公室在資料獲取和發佈方面為政府機構提供了廣泛的指導,他們確立了以下原則:政府機構必須及時、公平、有效地以適當的方式把資訊發佈給公眾。 政府機構必須建立和維護「資訊發佈產品清單」。 政府機構必須考慮到公民獲取能力的差異,讓那些不能上網的公眾也能獲得重要資訊。 政府機構應制定多種策略來發佈資訊。 當使用電子媒體時,那些涉及妥善管理和檔歸檔的規定同樣適用。 政府機構需要評估並確定最合適的方法來採集和保存檔。
美國管理和預算辦公室也為政府機構網站的資訊管理提供廣泛的指導。 要求政府機構對提供的所有線上應用進行標準化的風險評估,並要求政府機構執行多項與隱私相關的措施。 其他有關資訊獲取和傳播的政策工具還包括:1.要求政府機構對英語能力有限的人提供適當的資訊獲取方式,涉及所有的「聯邦的專案和活動」。 這個政策的目標是為了解決公民使用電子政務的鴻溝,尤其是那些不以英語為母語的人。 2.規定殘疾人在公共教育中可平等獲取所有的電子材料。 規定政府在提供服務和福利,以及開展政民溝通時,不得將殘疾人排除在外。 保證殘疾人平等地參與政府活動和獲取政府資訊,並確立了他們獲取資訊和使用通信技術的一般權利。 3.推進和實施了線上資訊和通信技術的可獲取性。 4.由聯邦政府採購、維護或使用的電子和資訊技術必須滿足特定的獲取性標準,以確保殘疾人能夠獲取線上資訊和服務。
(二)隱私、安全、準確性和歸檔
政府網站正變成雙向社區,增加了網路病毒或其他攻擊載體侵入政府環境的可能性,同時也增加了資訊意外洩露的可能性。 資訊政策框架也做出了相應調整以應對這一變化。 比如,管理和預算辦公室要求政府機構盡可能採取足夠的安全措施,以確保資訊不被篡改,並確保其準確性、保密性和可獲取性,以符合政府機構的預期和使用者的需求。
然而,當前的相關政策並不能保證解決大資料所帶來的大量使用不當問題。 對個人識別資訊、政府資料與資訊的安全性以及對公開資料的準確性的擔憂,都與大資料相關。 大資料的品質、可靠性和權威性是政府、科研群體以及非政府組織和私營部門最關注的問題。 未經確認或驗證的資料、或用錯誤方法採集到的低品質資料可能會導致錯誤的研究發現,進而嚴重影響一系列的決策和政策制定。
data.gov的資料管理政策,致力於解決這些問題,具體包括:規定負責採集和發佈資料的政府機構要確保資料的準確性、及時性和整體品質。 要求政府機構進行版本控制,確保資料集具有明確的標籤。 要求政府機構確保data.gov上發佈的資料不涉及國家安全。 要求政府機構確保發佈的資料符合保密和隱私保護的相關規定。
沿著資訊的生命週期繼續往下走,大資料的使用、儲存和保存等方面也面臨各種挑戰。 推動大資料的開放和可獲取,與促進大資料的利用具有顯著差別。 此外,特定領域的資料應用(即只有某個特定領域的科學家們使用)和廣泛的跨學科資料應用(即跨學科領域和跨常見研究領域的應用)之間也有不同。
同時,需要為大規模科研資料集建立專門的資料庫。 構建資料社區的一個要素是迫切需要整合和管理來自不同源頭和不同部門的資料。 這些資料流程必須在政府、私營部門、公共事業公司、各種設備和個人之間流動交匯,才能真正有用,並為社區和國家發展提供資訊。 因此,有必要在各個實體間建立、採用並遵守一套正式的資料管理標準和操作辦法,以保障資料相容性、命名規則和組織架構。 而且,為確保研究人員們對於資料集的知情使用,也需要製作具有明確定義的資料檔案和編碼本。
「聚合」指的是使用者將從不同網站得到的資料結合起來,大資料使當下資訊政策環境變得更為複雜。 管理和預算辦公室要求各政府機構的公共網站,提供開放且符合業界標準格式的資料,使得使用者能夠整合、分解、操縱或分析資料以滿足他們的需求。 目前經過聚合的資料往往缺乏正式的授權和驗證程式。 正如data.gov網站所提出的,「一旦資料從該政府機構頁面被下載後,政府不再能保證其品質和即時性。 此外,美國政府無法對取自data.gov的資料的任何分析結果做擔保」。 雖然這一免責聲明限定了data.gov的責任,但二次資料使用問題仍需要解決。
大資料的監管也是一個不可忽視的問題。 數位化監管涉及對電子研究資料的維護、保存和增值,並貫穿其整個生命週期,例如數位資產的概念問題、數位資產的創造、獲取和使用問題,以及數位資產的評價和選擇工作。 隨著新的電子資料資產的持續增長,有必要為大資料的整個生命週期制定有效的資料管理原則。
最後,在諸如data.gov社區這樣的數位「開放空間」裡,永久的、最終的檔越來越少,而幾乎所有檔管理和歸檔工作都是基於這些檔建立起來的。 可現在由於使用非政府的協力廠商應用程式或軟體,且資料調整和修改不斷發生,使得資料擁有權、儲存進度以及歸檔工作都面臨巨大的挑戰。
政策和治理原則
當政策制定者考慮、辯論並制定政策時,當私有部門、非營利部門與政府在進行合作時,我們會發現對開放政府資料和大資料立法或者制定一套政策和治理結構非常困難。 政府需要在進行資料開放並利用大資料技術的時候,需要制定一套指導原則。 而且這些指導原則只是一個開始,並非結束。 隨著對大資料創新的理解不斷深入,我們需要建立並維持一個強有力的政策和治理框架。 這些指導原則是:
1.不造成傷害。 在政府、私有部門和公眾社會間共用資料可能涉及到私人的、敏感的個人資訊,而這些組織中的大多數並不擁有相匹配的資料管理、利用和再利用政策。 當非政府組織也是大資料合作專案的參與者時,個人不應該被強制或被要求將政府出於某種目的而採集的資料共用給這些非政府組織。
2.長遠眼光。 資料的長期共用、保存、檢索以及獲取將要求超越當前技術水準,具有長遠眼光。 需要保證大資料及其附屬產品能在未來的10年、20年乃至更長的時間裡都能獲得。 從一開始就堅持遵守開放資料標準及技術標準可有效推動這一過程。
3.資料表述。 我們需要保證資料元素、資料獲取單位(例如,是個人層級還是社區層級)、或資料的其他方面都被很好地界定,同時資料獲取和使用政策得到清楚地表述。
4.承擔責任。 大資料對於提供資訊和制定政策潛力巨大,但也可能造成損害。 大資料通常包含了多種資料集的聚合,而這些資料集最初並不是出於整合的目的而生成的。 在大資料創新中,政府需要對他人使用其資料所造成的損害承擔責任,確保對公眾的保護。
政策建議
大資料帶來了一系列問題,而當前的政策框架卻無力解決這些問題,這就需要一個大資料的治理模式。 這一治理模式需要考慮以下具體問題:
隱私。 在個人、家庭、設備或其他層面,大資料包含了各種個人資訊資料。 隱私保護法律和政策可能會與大資料所帶來的機遇相衝突,而與此同時,大資料正在侵犯個人或社區的隱私權。
資料再利用。 資料通常是由政府機構或其他組織所採集的,一般與社會服務的被服務者相聯繫。 另外,個人、政府機構或公司常擁有在允許範圍內使用資料的權力,以及採集和使用資料時的隱私保護政策。 當大資料應用不斷整合來自不同機構、政府以及家庭的資料集以期發現新思路並為決策和政策制定提供資訊時,向個人清晰地進行資料利用和再利用政策的指導也非常必要,從而使個人能夠在知情的情況下,做出與其個人資料相關的決定。
資料準確性。 由於新的資料集是由組合來自不同政府機構、研究人員、科學家、私人部門以及公眾群體的原本各不相干的資料而生成,因此需要制定並遵守資料品質標準。 因某一特殊目的而採集的資料並不一定與其他資料集完全相容,而這可能會導致誤差以及一系列的錯誤結論。 Data.gov網站上的免責申明將這一責任交給了發佈資料的政府機構,以及下載並使用這些資料的組織或個人。 資料的使用會對社會、政策以及科學專案產生巨大影響,而以上做法並不是對資料使用的恰當回應。
資料可獲取。 用什麼政策去管理這些新產生的資料集的可獲得性和保存?此外,大資料使公眾獲取政府資料整合為一個問題,因此需要建立類似data.gov的公開資料獲取平臺。
歸檔和保存。 大資料如果脫離其所嵌入的技術和分析平臺,原始資料本身不能保證匯出相似的發現,因此同時保護資料和用於分析資料的技術就至關重要。 另外,我們還必須考慮由非政府機構建立的研究資料集的歸檔和長期保存,例如由政府研究機構資助的大學和研究中心。 需要制定整體資料管理戰略,以確保較小的資料集的可用性,使之能成為作為大資料的一部分。
資料監管。 大資料創新的主要目標之一就是鼓勵社區整合多個大規模資料集以創造新的知識。 大資料不一定生來就是大資料,而是通過對許多小的資料集的累積、修改、合併以及加工而來。 資料的每一種排列都是一個新的資料集,需要存檔、管理及監管。
建立可持續的資料平臺和架構。 為了組織、監管、儲存並將資料集開放給科研群體、私有部門、其他部門以及公眾,需要建立強大的技術基礎設施。 這些平臺需要同時在實體層面(技術)和智力層面(組織的)將大資料開放,同時需要將一系列技術、分析技能以及資訊架構進行無縫隙整合。 這些基礎設施必須能像data.gov那樣能夠支援面向公眾的通用平臺, 以及面向特別機構的包含大量大規模資料集的專業平臺。
資料標準的建立。 大資料要求在技術層面能實現交互操作,同時在資料層面遵守中繼資料標準。 不同的領域可能會有不同的中繼資料標準。 大資料資料集的生成、發展及發佈需要考慮合適的資料標準格式,從而推進協作和資料的再利用。 此外,對於對外發佈的文檔也需要建立文檔標準等。 另外,對資料的局限性也需要做出清晰的說明。
鼓勵跨部門資料共用政策。 由於大資料涉及到資料在不同系統、政府和部門之間的即時傳遞,這就需要建立一個資料共用和交互操作的框架。 利用了協作分析技術的大資料創新,需要對資料獲取和彙報系統進行無縫隙整合。 這就有必要調整資訊和資料政策以反映這一整合的資料環境。
大資料創新對政策制定和決策有重大意義,可加深我們對重大科學和社會挑戰的理解,推動政府、公民以及企業間的合作,並引領一個新的電子政府服務的新時代。 然而,我們也需要考慮與管理大資料相關的一系列政策問題,包括隱私、準確性、可獲取性、公平和保存政策等,並建立整體性的大資料治理模式。