說人類步入了資訊時代,有個事情是非常重要的,就是物理世界的資訊化,包括資訊基礎設施建設和數位化,緊接著就是如何將數位化的東西(資料)進行儲存、傳輸、交換以及使用,這一脈絡伴隨著移動互聯網,雲計算、 大資料以及各種各樣智慧終端機的出現,顯得也越來越清晰。 很多人都已認可,我們可能來到一個工業革命之後,一個比我們想像地更加重要的變革時代,我們把它命名為產業互聯網的時代。 畢竟這一切都是互聯網出現之後才發生的,無論是雲,通過網路隨需調用的計算資源;大資料,關聯的可分析線上資料;還是各種智慧終端機,都要依託互聯網。 同時這些工具又説明互聯網從消費互聯網進化到改變各個行業的生產性互聯網,其中,資料成為產業互聯網重要的生產要素。 當然,資料成為生產要素還有個前提,就是獲取資料,並有效的梳理與標籤。
2013 年中國產生的資料總量超過0.8ZB(相當於8億TB),2 倍于2012 年,相當於2009 年全球的資料總量。 預計到2020 年,中國產生的資料總量將是2013年的10倍,超過8.5ZB。 (來源,ZDNET《資料中心2013:硬體重構與軟體定義》年度技術報告)
我們通過伺服器和資料中心數量,以及各行業資料梳理,大致判斷國內目前一年產生、存儲的資料總量以及大致分佈,在這一回中,我們嘗試將所收集的資料匯總起來,進一步分析下各個行業、領域的資料總量和分佈情況,以供參照。
1、BAT代表的互聯網公司
(百度)現在的資料總量接近一千個PB左右,網頁的數量大概是幾千億的網頁,從大量的網頁裡面我們拿出幾百億來建索引,對於大量的網頁,我們每年更新幾十億左右,每天會享受使用者的查詢也會在幾十億左右,我們查詢的也是幾百PB。 (百度雲計算首席架構師林仕鼎2013)
根據公開的資訊,作為全球最大的中文搜尋引擎,百度每天回應來自138個國家和地區的數十億次請求,百度每日新增資料10TB,要處理超過100PB的資料,從浩如煙海的資訊中精確抓取約10億網頁, 同時索引庫還擁有千億級線上索引能力,以説明使用者完成搜索過程。 面對海量的大資料,百度正在通過自建資料中心,開發了自己的大資料存儲系統,並使用了多項新技術。 計畫投資47.08億元的百度雲計算(陽泉)中心已于2012年8月奠基,該專案預計2015年完工。 建成後的百度雲計算(陽泉)中心資料存儲量將超過4000PB,可存儲的資訊量相當於20多萬個中國國家圖書館的藏書總量。
百度的資料量大大家可能不會懷疑,甚至說中國擁有最大資料量的公司,大家可能也不會懷疑。 因為我們是提供搜索服務,我們要把全中國的中文網頁全部搜索起來,放到我們中心。 全部的網頁多大呢? 目前估計是三千億左右,三千億個中文網頁要把它全部抓過來,放到我們的資料中心。 這個資料大概是10-50個PB,這個範圍很大,因為這個情況是每隔一小時時間就會發生很大變化。 再一個想不到的是日誌,百度的系統裡面每天有很多大量的日誌,這些日誌是作為我們分析處理使用者行為習慣,包括資料恢復和災難備份很重要的基礎,這個資料量是最大的,目前能達到100個PB以上。 資料倉儲,資料倉儲是經過清洗以後的日誌資訊,這個是結構化的。 再一個大家知道,百度上有百度推廣,俗話叫廣告。 和傳統廣告一樣,除了有客戶的資訊之外,還有廣告本身,這部分資料比較小,1TB,但是這部分資料對它處理的要求非常高,首先是要高度的一致性。 最後一個是UGC,使用者產生的內容,大家都知道百度有貼吧,有百度知道,百度文庫,這些內容是廣大互聯網線民自己產生,自己上傳,大家一起分享的資料,這部分資料目前達到1PB,而且這裡的資料大量是使用者上傳的視頻、 圖片等等多媒體的資料。 (百度技術委員會理事長陳尚義2012)
擁有近5億註冊使用者,2013年有篇報導指出阿裡巴巴掌握的總體資料量為30P。 行業內部人士預計阿裡集團大概有30萬台左右伺服器,目前保存的資料量應該在近百PB(對新浪微博的投資,對高德等的收購等行為,會進一步提高阿裡巴巴可接觸的資料量)。 2012年7月10日,阿裡集團就宣佈設立首席資料官崗位(CDO),負責推進「資料分享平臺」戰略。 阿裡巴巴也一直在嘗試對資料進行加工。 從早期的「淘寶指數」,到為店鋪經營提供運營管理資料分析的「資料魔方」,到將「雲」理念與大資料結合的「聚石塔」,再到以資料分析為基石的「阿裡金融」,阿裡在大資料開發方面一直走在業界前沿。
從淘寶創立之時,阿裡巴巴就開始搜集平臺上的資料,直至支付寶、聚划算、一淘等平臺,隨著業務的爆發式增長,阿裡諸平臺上的資料成倍增加,彙集成海。 這些資料包括交易資料、使用者流覽和點擊網頁數據、購物資料等等。 阿裡集團首席戰略官曾鳴預測,「阿裡本質上,未來會是一家資料運營公司。 」前者,是如何將大資料用好,而後者則意味著,如何讓大資料更好用。
在2013年大資料大會上,騰訊公司資料平臺助理總經理蔣傑表示,在國內互聯網體系中,騰訊擁有的資料覆蓋多個領域,總存儲資料量經壓縮處理以後在100PB左右。
騰訊QQ目前擁有8億使用者,4億移動使用者,在資料倉儲存儲的資料量單機群數量已達到4400台,總存儲資料量經壓縮處理以後在100PB左右,並且這一資料還在以日新增200TB到300TB,月增加10%的資料量不斷增長, 現在正在為1000個PB做準備。 亞洲最大的資料承載中心,騰訊天津研發與資料存儲中心正在濱海新區緊張地建設中,騰訊天津中心專案總建築面積9.33萬平方米,預計伺服器託管能力超過10萬台。
其他像360、一些地圖、社交、影視娛樂類互聯網公司,也擁有PB量級資料儲備。 如果按某媒體所說的BAT中阿裡巴巴擁有90%以上的電商資料,百度以70%以上的搜索市場份額坐擁龐大的搜索資料,騰訊擁有大量社交、遊戲等領域積累的文本、音訊、視頻和關係類資料,這三大巨頭擁有的資料量肯定是在EB級別以上, 全部互聯網公司擁有的資料量應該超過1.5EB,達到接近2EB的體量。
2、電信、金融、保險、電力、石化系統
2012年12月13日,在由雲基地主辦的「中關村大資料日」活動上,中國聯通研究院副院長黃文良介紹,「今年,中國聯通成功將大資料和Hadoop技術引入到」移動通信使用者上網記錄集中查詢與分析支撐系統」。 截止到目前,我們已經部署了4.5PB的存儲空間。 除了這些資料,運營商還具有使用者通話、資訊、地理位置等資訊,目前主要運營商擁有的資料數量應該都在10PB以上,總體年度使用者資料增長約數十個PB。
中國銀聯公開資料顯示,全國僅「銀聯」銀行卡發行量目前接近40億張,每天有近600億交易通過銀聯的銀行卡交易,儘管單張卡片資料量不大,但匯總起來,這依舊是一個非常龐大的資料量。 如果再加上開戶資訊資料,銀行網點和線上交易的各種資料,以及金融系統自身運營的資料,目前國內銀行和金融系統每年產生的資料也能達到數十PB,保險系統生成的資料量也會接近PB級別。
今天,國家電網建成世界最大電能計量自動化系統。 截至2013年年底,累計安裝智慧電能表1.82億只,實現採集1.91億戶,採集覆蓋率56%,自動抄表核算率超過97%。 智慧電網可以產生巨大的資料量。 比如國網信通在北京五個社區, 353個採集點,採集1.2萬個參數,包括頻率、電壓、電流等, 15分鐘採集一次,一天就能產生34GB。 僅國家電網,全國能夠採集獲得的資料總量也是上10個PB級別的,能夠保存下來的資料量也能達到近10PB,同樣,據內部資料分析,石油化工、智慧水錶等領域每年產生和保存下來的資料量也達到數十PB級別。
3、公共安全、醫療、交通領域
隨著平安城市、智慧城市等工程的推進,監控攝像頭已經遍佈大街小巷,安防監控對高清化、智慧化、網路化、數位化的要求越來越高,資料量自然也不斷地迅速增加。 據說,1080P高清網路攝像機 ,速度能夠達到每秒60幀,這樣的攝像機一個月產生的視頻檔就達1.8T。 北京目前用於視頻監控的攝像頭有50萬個,一個攝像頭一個小時的資料量就是幾G,每天北京市的視頻採集資料量在3PB左右,而一個中等城市每年視頻監控產生的資料在300PB左右。 儘管出於成本考慮,很多監控視頻具備定期清除迴圈的特點,但整個視頻監控每年能夠保存下來的資料,每年也在數百PB以上。
與此相關的交通方面,航班往返一次能產生資料就達到TB級別,還有列車、水陸路運輸產生的各種資料視頻、文本類資料,每年也在百PB級別,能夠保存下來的,也能達到數十PB。
北京市交通運行監測調度中心建立了包含「交通資料中心、監測預警中心、運行協調中心、綜合交通資訊發佈中心」在內的四大中心,實現運行監測、協調聯動、決策支援與資訊服務等功能,並為政府決策、行業監管、企業運營、 百姓出行等提供服務支援。 具體來看,TOCC已整合接入行業內外27個應用系統、6000多項靜動態資料、6萬多路視頻,目前靜動態資料存儲達到20T,每天資料增量達30G左右。 (北京市交通運行監測調度中心(TOCC)副主任張可)
上海申康醫院發展中心牽頭完成的「醫聯工程」專案將大資料應用於健康醫療產業,該專案覆蓋38家市級三甲醫院,實現了市-區各級醫院間大規模臨床資訊即時共用以及健康檔案動態更新,高效存儲檢索解決了海量影像資訊高效存儲、 傳輸和展示的難題,建立了PB級醫學影像檔案庫。 有媒體報導說:「中國一線的大型城市,僅僅健康檔案的資料,一年就有5PB之多。 」醫療健康衛生領域無疑是一個很大資料來源,包括疾病監控等方面的資料。 比如,醫療資料一個大腦的CT掃描圖要讓它解析度很高,微米的資料量產生是4.5TB的資料。 例如像廣州中山大學醫院2013年資料是1000個TB。 有統計表明,中國一個中等城市(一千萬人口)50年所積累的醫療數量可達到10PB。 如此推算,整個醫療衛生行業,一年能夠保存下來的資料就可以達到數百PB。
「大型醫院每年的資料增量在數十TB,僅醫學影像每年可達20TB。 」 一個CT圖像含有大約150MB的資料容量,而一個基因組序列檔案大小約為750MB,一個標準的病理圖與前兩者相比則大得多,檔案大小接近5GB。 如果將這些資料量乘以人口數量和平均壽命,僅一個社區醫院或一個中等規模製藥企業就可以生成和累積達數個TB甚至數個PB級的結構化和非結構化資料。 (某大型三甲醫院電腦室主任)
4、氣象、教育、地理、政務等
目前,整個中國氣象局所保存的資料在4~5PB左右,每年大概增加數百個TB左右。 包含了地面觀測、衛星、雷達和資料預報產品等幾大類的觀測資料。 各種地圖和地理位置資訊應該每年在數十PB,但此次資訊容易和互聯網公司以及交通運輸、物流行業產生資訊重疊,單獨佔有和保存的此類資訊應該在PB級別。
除了常規的地面觀測站之外,以氣象衛星和多普勒天氣雷達為代表的遙感遙測業務領域近三十年來取得飛速發展,這些領域一方面每天產生著數以TB級的觀測資料。 (國家氣象資訊中心副總工程師沈文海)
據悉,一個智慧城市的資料一個季度就是200PB之多。 2013年,北京市政務資料資源網試運行一年來,已上線公佈了400余個數據包,涵蓋旅遊、教育、交通、醫療等門類,累計訪問量超過600萬次,地理空間資料累計下載量4800余次。 有調查顯示,未來1-2年中國政府部門的資料規模超過100TB的將超過一半,達到53.3%,有將近三成(33.3%)的使用者資料規模是10-50TB。 政府部門的資料多數還是集中在結構化資料上,對於非結構化資料的擁有量並沒有想像的大。 整個政府部門產生的資料,排除上述提到的幾個主要部分,也能達到PB級別。
目前,絕大多數中央部委和省級政府部門的核心業務都有資料庫支撐,核心業務資料庫覆蓋率超過80%。 公安部建成了覆蓋13億人口的國家人口資料庫。 國家工商總局建成了企業法人資料庫,民政部和中央編制辦公室初步建成了社會團體和事業單位資訊庫,全國四級國土資源主管部門積累了近6000TB的資料,國家統計局建成了統計資訊庫, 國家發展和改革委牽頭的自然資源和空間地理基礎資訊庫正在加緊建設。 此外,金融、稅務、質檢、社保、教育等領域也都建成了一批資訊庫。
5、其他,商業銷售、製造業、農業、物流和流通等領域
隨著產業互聯網的普及,(線下)商業銷售、製造業、農林牧漁業、(線下)餐飲、食品、科研、物流運輸等等這些傳統行業的資料量將呈現迅速增長態勢,但目前來說,目前這些行業資料量還處於積累期,整個體量都不算大,多的達到PB級別, 基本也就是百TB甚至數十TB級別。 另外,中國國家圖書館藏書是2631萬冊,這相當於41TB。 影視娛樂、出版傳媒方面也有一定量的資料積累,還有教育方面目前也在產生著大量的資料,這些都是未來可以挖掘的方向。
製造業的存儲資料一般被分為以下幾種類型:其一,產品設計資料,這類資料的典型特點是以檔為主,非結構化,共用要求比較高,保存時間也比較長;其二,企業生產環節的業務資料,其特點是以資料庫等結構化資料為主, 這些資料的重要性不言而喻,它們不僅表現企業目前運行的狀況,而且為企業進一步發展決策提供有價值的分析;其三,生產監控資料,其特點是資料量非常大,對存儲空間以及I/O吞吐要求高。 製造企業中,企業對資料的記錄多停留于兩種形態:1、傳統的紙筆記錄;2、Excel試算表記錄。 這些操作起來看似簡單的資料管理方式,在浪費人力物力的同時,還為企業生產及品質監控埋下了巨大的隱患。 而真正挖掘資料背後的價值,更是無從談起。
最後,我們再從IDC使用行業分佈看一看,互聯網客戶仍舊是主要快速增長的客戶群體,占到40%左右,電信、生產製造行業也屬於使用比較多的,政府、教育行業增長較快,所占比例分別為8.7%和7.8%。 資料存儲需求方面,據IDC預測,存儲市場將繼續表現出良好的增長勢頭。 在未來五年,存儲資料容量將達到15864PB(另一資料是18EB),其中尤以政府、醫療、教育等行業增長迅速,所占份額最重。