大資料概念並非無解

來源:互聯網
上載者:User

去年10月,我們召開以大資料為主題的科學討論會時,有一位代表說,那麼多專家講了一天,連什麼是大資料的概念都還沒搞清。 我說不對。 大家是從不同的角度對這個概念進行詮釋。 如同說到「文化」這個概念,馬上問100個人,難道能夠得出一個統一的答案嗎?也許100個人就有100個答案。 但這並不意味著大家對這個概念沒有一種相差無幾的共識。 同樣,講到精神這個概念,雖然大家都能理解得八九不離十,但100個人卻很難給出一個相同的標準答案。 如果沒有一個絕對權威,像確定「北京精神」那樣,給大資料明確一個獨一無二的概念,大家就會在八九不離十的基礎上依然各自表述、各說各話。

我們的研究成果顯示,對大資料現象和概念追根溯源,大致可以分為三個階段。 一是20世紀80年代至90年代中期,是大資料認知的萌芽階段。 1980年,美國著名未來學家阿爾文·托夫勒在《第三次浪潮》一書中將大資料盛讚為「第三次浪潮的華彩樂章」。 二是20世紀90年代中期到21世紀前10年,是大資料廣受各界關注的階段。 美國高德納(Gartner Group)公司的分析師道格拉斯·蘭尼(Douglas Laney)2001年首次從大資料的特徵的角度對大資料進行了相對明確的定義,強調大資料必須具備3V特徵,即容量大、多樣化和速度快。 三是2010年至今,是大資料戰略應用被提上日程並迅速發展的階段。 美國總統科學技術顧問委員會于2010年給奧巴馬總統和國會呈報了題為《規劃數位化的未來》的報告。 麥肯錫公司于2011年發佈了《大資料:創新、競爭和生產力的下一個前沿》的報告。 2012年更是一個重要年份。 1月,瑞士達沃斯9374.html">世界經濟論壇發佈報告《大資料 大影響》;3月,美國奧巴馬政府頒佈了《大資料的研究和發展計畫》;5 月,聯合國秘書長執行辦公室發佈了《大資料促發展:挑戰與機遇》的報告;6月, 經合組織OECD統計委員會第9屆會議發佈《使用大資料作決策》研究報告。 2013年則可以稱為中國統計的大資料元年。 7月,「大資料時代統計學:機遇與挑戰——中國統計學高端論壇」在上海財經大學舉辦;10月,主題為「大資料背景下的統計」的第十七次全國統計科學討論會在杭州舉行;11月,國家統計局與阿裡、 百度等11家企業簽署了大資料戰略合作框架協定。

什麼是大資料?麥肯錫報告的定義是,「大資料是指大小超出了傳統資料庫軟體工具的抓取、存儲、管理和分析能力的資料群」。 維琪百科(Wikipedia)的表述是,「大資料是難以用現有的資料庫管理工具處理的兼具海量特徵和複雜性特徵的資料整合。 」塗子沛將大資料定義為那些大小已經超出了傳統意義上的尺度,一般的軟體工具難以捕捉、存儲、管理和分析的資料,認為一般應該是「太位元組」的數量級。 阿裡創始人馬雲則說,大資料就是一種服務。 而我們的同仁在研究中提出:大資料是指採用多種資料收集方式,彙集不同資料來源,通過採用現代資訊技術和架構能夠高速分析處理的、具有高度應用價值和決策支援功能的多種類型資料及其技術集成。

從存在形態看:大資料分為可以用二維表反映的結構化資料和不能以二維表反映的非結構化資料,如音訊、視頻、圖片等。 從資料來源看:大資料可分為行政記錄資料、商業記錄資料、互聯網及搜尋引擎資料三大類。 行政記錄資料包括個人資訊記錄資料,單位資訊記錄資料和自然和資源記錄資料等;商業記錄資料包括電子商務交易資料,企業生產經營資料和資訊諮詢報告資料等;互聯網資料則包括搜尋引擎資料,新聞媒體資料和社交平臺資料等。 而大資料的特徵,從最初的3V已經被歸納為6V加1C。 即資料體量大(Volume),類型多樣化(Variety),處理速度快(Velocity),應用價值大(Value),資料獲取與發送的方式自由靈活(Vender),準確性(veracity)和處理和分析難度非常大( Complexity)。

相對於傳統資料,大資料多是自動化或半自動化生成;資料的搜集、處理、存儲和分析能力都已極大提高;資料主體和來源日趨多元化;非結構化資料占絕大多數;需要大量過濾才能提取有用價值;隱私與安全也存在著巨大隱患。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.