近兩年來,大資料被公眾廣泛討論,甚至成為不少商家宣傳行銷的賣點。 毋庸置疑,智慧設備的發展和普及,使海量的資料獲取成為可能。 但大資料並不是單純的「資料大」,它更蘊含著一種計算和思維方式的轉變,想要發揮出大資料的洞察力,還面臨著採集、管理、分析資料的挑戰。 這些障礙如何破除? 大資料在未來將如何應用,能否創造出更大的價值? 這些問題值得我們在大資料熱中,做出冷靜判斷。
4月26日,清華大學成立「清華—青島資料科學研究院」,同時召開大資料時代高端論壇。 就在此前兩天,百度在第四屆技術開放日上,正式宣佈對外開放大資料引擎,提供大資料存儲、分析及挖掘的技術能力。 大資料被學界納入研究範疇,商家開放引擎,這是否意味著大資料應用進入了一個新階段?
大資料
傳統統計方法追求精確,大資料只預測宏觀趨勢
本是技術概念的大資料,如今越來越像一種行銷手段。 從汽車、化妝品到體育,在行銷人員口中,似乎所有行業都可以借助大資料,精確定位、找到消費者,預測趨勢、贏得未來。
中國人民大學新聞學院教授喻國明認為,目前從國內的情況看,真正運用大資料分析成功的案例其實不多,很多公司都是將大資料作為一個行銷噱頭,所做的分析也主要是基於傳統的資料分析方法。
事實上,對於資料多大能稱之為「大資料」,業界並沒有統一的認識,通常認為100TB(太位元組)是大資料的門檻。 簡而言之,傳統方法無法處理的資料即為大資料。
大資料的產生得益于移動互聯網以及智慧手機、各種智慧穿戴產品的發展,人們行為、位置,甚至身體的生理特徵等資料都可以便捷地被記錄,這使海量資料獲取成為可能。 事實上,目前資料獲取量正呈現快速的增長趨勢。 一家國際資料統計機構最新預測指出,2020年,全世界產生的資料量有望達到40ZB(澤位元組,1澤位元組等於10億太位元組)。
但大資料不能單純理解為數據大。 大資料研究專家、北京航空航太大學校長懷進鵬表示,大資料具有「規模大、變化快、種類雜、價值密度低」四個特徵,是對傳統計算和思維方式的一種挑戰。
首先,因為幾乎每個資料點都可以採集,全面資料代替了抽樣、片面、局部的資料。 「拿炒菜打比方,傳統的抽樣,我們需要在開始和中間時候‘嘗一嘗’,‘嘗一嘗’就是抽樣資料,但在大資料時代,隨機抽樣的方式可能就失效了。 」懷進鵬說。
懷進鵬認為,因為抽樣分析時資料測量能力有限,統計追求的是精確,希望用最少資料獲得最多的資訊。 而大資料比較雜亂,完整的精確不存在,也不再是追求的絕對目標,大資料只需對宏觀趨勢給出快速預測。
另一個改變是,從關注因果轉向資料之間關聯。 在大資料時代,「資料背後的原因不再重要,人們只需要知道資料之間有統計相關性就行。 僅需知其然,無需知其所以然。 」懷進鵬說。
在大資料的支援者看來,資料已經能夠自己說話,傳統的科學統計模型已經過時,理論也可能被終結。
大資料行銷大多是噱頭,一些機構甚至無法收集海量資料
被譽為開大資料系統研究先河之作的《大資料時代》作者指出,大資料是社會的一種新型能力:以一種前所未有的方式,通過對海量資料進行分析,獲得巨大價值的產品和服務,或深刻的洞見。
大資料蘊含的發現事實、挖掘價值、預測未來的洞察力,也是各色大資料行銷的理論出發點。 實際上,大資料洞察力確實在公共衛生、交通運輸等行業開始發揮。
中國疾病預防控制中心副主任、中科院院士高福也認同大資料在公共衛生預防控制上的作用。 他說,通過大資料,可以在流感到來之前為人們提供一些解釋性資訊,為流感的預防提供緩衝時間。
同樣,在智慧交通時代,海量車輛資訊沒法通過傳統方式分析,但借助大資料,則可能提前預測未來的車流量、行進路線等資訊,從而為改善城市交通狀況提出優化方案。
「自己能夠講話的大資料」,是否真如行銷人員暢想得那麼美好?
分析人士指出,資料存儲和搬運雖然越來越便利,但目前大資料應用面臨著資料收集,管理、分析海量資料並創造價值的挑戰。
「如果將資料比作書,書增多後,首先要找到儲存大資料的‘大圖書館’,下一步則要解決資料查詢問題,沒有好的查詢引擎,書找不到,資料也就很難利用。 」 百度大資料總監李鋼江說。 而現實是,大部分機構和企業都沒有海量資料收集存儲以及分析管理的能力。
業內人士指出,大資料在一些領域的行銷還只是噱頭,先不論大資料分析結果是否有效,有些行業連基本的大資料獲取和管理條件還不具備,更談不上精確定位和預測。
百度高級副總裁王勁也表示,傳統的資料庫沒有管理大資料的能力,傳統行業如何進入大資料時代,利用大資料價值,是擺在很多行業面前的新課題。
提升計算能力和降低雲存儲成本,將有利於大資料技術變革
百度首席執行官李彥宏認為,隨著計算能力的提升和雲存儲等技術產品成本的不斷降低,大資料走到了技術變革的臨界點。 不久前,百度就推出了「百度大資料引擎」,百度希望借助該工具,對大資料進行收集、存儲、計算、挖掘和管理,並通過深度學習技術和資料建模技術,使資料具有「智慧」的技術能力,服務傳統行業。
據瞭解,百度大資料引擎包括開放雲、資料工廠、百度大腦三大元件。 其中,開放雲解決的是資料存儲和計算問題;「資料工廠」則對行業資料進行正常化處理,提供資料管理和分析;而「百度大腦」則讓機器和人腦一樣思考,分析處理資料。
不過,分析人士指出,雖然各方面為挖掘大資料開發了很多工具,但大資料的成熟應用還有很長一段時間。 首先,資料雜亂,價值密度低,如何有效的收集資料資訊仍沒有成熟的方案。 同時,資料的規模並不能決定一切,不論是那種資料分析方式,都可能存在統計上的缺陷,不能說資料更大、更新、更快就沒有問題。
英特爾中國研究院首席工程師吳甘沙表示,大資料作為一種新的資料形態和實踐,它將豐富資料應用方法,卻不能取代傳統統計分析方法,更不能神化大資料。
眾多手環都稱能收集個人健康收據。
戴個手錶、手環日測身體指數
購買可穿戴設備是為了什麼? 新奇好玩,運動社交,還是管理個人的健身習慣? 其實,這些並未發揮可穿戴設備真正的價值。 據瞭解,目前市場上眾多可穿戴產品都聲稱能融合無線網路、移動計算和自動識別,包括血糖、心率、呼吸頻率、重量、水合作用和身體運動等身體指征,都可以即時瞭解,這就是所謂的「大資料醫療」,令眾多越來越注重健康的白領為自己、 家人添置這些產品。
儘管IDC預測,中國的大資料超市在2012年~2016年間將增長5倍,政府、銀行、醫療衛生、電信等行業將在其中佔據最多的份額,但「大資料醫療」在國內的真正落地還有很長的路要走。
市場
國內外眾多廠商投身
據國外媒體報導,蘋果公司近日正在迅速擴充醫療團隊,招攬了健身專家、醫療設備行業專家等多名醫療傳感背景的工程師,並很有可能在今年秋天發佈Healthbook.據悉,Healthbook可追蹤從睡眠到營養、 從運動到生命體征的各種各樣的指標,包括血糖、心率、呼吸頻率、重量、水合作用和身體運動等,成為蘋果下一代移動作業系統iOS 8和其謠傳已久的iWatch智慧手錶的重要賣點,更成為移動醫療保健行業的引爆點。
事實上,健康與運動類應用近年來日益普及。 Azumio公司光為蘋果iPhone開發的健康監控和健身應用就達到了40款。 在IT大佬們看來,不光是醫療資料的移動化採集,其形成的「大資料」擁有更大的想像空間。 目前,Windows 8系統整合了必應保健(Bing Health &Fitness)功能,可説明使用者記錄運動、用藥和飲食;微軟的醫療資料平臺HealthVault則可以讓使用者收集、管理自己和家人的健康和身體狀況資訊, 再結合可穿戴產品Fitbit或Nike+ Fuel Band收集的資料,為醫療提供了更多的方便。 另外,美國第四大電子病歷服務商Practice Fusion近日也和為智慧手機做心率監測配件的AliveCor達成合作,設備中的資料會集成到病歷當中,並保存在雲端供即時獲取。
「一旦累積了足夠多的資料和樣本,放到專業的醫療人員手裡,那對醫療事業的推動將是革命性的。 」據英特爾軟體與服務事業部合作夥伴關係部經理王怡淳介紹,英特爾研究院也正在致力於醫療資料的互相連通,「讓小至簡單的計步器,大到複雜的CT掃描器彼此相連,並與雲進行通信和共用資料。 」在大資料醫療背景下,人體體征可以進行連續監測,看病不再只是病發後醫生的「望聞問切」.
問題
廠商收集的資料缺乏認證
國內的「大資料醫療」目前更多的只能稱為「遠端移動醫療」,有些甚至只是方便醫院內部的無線資料傳送。 例如麥迪克斯的「同步手持心電圖機」,雖然可以在平板電腦上便攜使用,但患者在家裡自行操作不夠方便。 其他國產廠商也在移動護理、社區醫療服務、手術麻醉、心電監測、臨床服務等領域提供了多種解決方案,但品質參差,技術上也是各自為戰,使得可穿戴設備的資料極為分散,設備生成一項關鍵資料之後,沒法被其他機構採用,但其實, 健康相關的資料需要被廣泛利用才能發揮價值。
此外,健康相關的資料如果要應用於醫療,資料必須通過政府藥物監測機構的認證與許可。 而大多數廠商沒有經過認證,而且資料本身也因感應器品質的好壞而存在不可知的誤差。
IBM醫療業務拓展經理劉晶煒認為,醫療行業的資訊特徵和很多其他行業不一樣,存在很多半結構化和結構化的資料,而且分佈在不同的醫療機構,因此如何對它進行有效的整合是一個挑戰。 「每個患者一般很少只去一個醫院。 大資料醫療的目標之一就是要將與每一個患者健康相關的資料有效地整合在一起,運用以循證醫學和數位驅動的兩種分析方法看到與風險相關的因素,然後根據這樣的因素具體制訂計畫,並有效地去執行。 但這樣的整合非常困難。 」
專家
需統一標準
國家衛生和計劃生育委員會統計資訊中心副主任王才有在醫療大資料高峰論壇上表示:「‘大資料醫療’在醫療流程重構、醫療效率提升等方面為我們帶來不可估量的價值,然而,走向真正成熟的應用還需要時間。 」
「目前,醫療機構內部的資訊化功能強,但醫療機構之間的總體協同效果差;縱向衛生業務系統的功能強,但標準化建設薄弱,資訊系統之間缺乏資訊共用和業務協作機制,系統之間資訊不能互通。 」專家認為,隨著移動醫療的發展,不同醫療機構紛紛根據其需求部署定制化的移動解決方案,醫療行業成為了國內率先啟動大資料應用的先鋒行業之一,大資料、虛擬化等技術支撐了移動醫療端的應用。
「各類醫院、社區衛生服務中心、鄉村醫療工作站、疾病監控中心、急救中心等衛生醫療機構大量分散。 醫療資訊化在十餘年的發展中,沉積下的IT系統涉及技術門類眾多,給資料獲取、資料品質、資料標準以及後續的維護帶來了巨大的挑戰。 假如均採用定制開發、標準介面或人工錄入的方式,不可避免地要投入大量的人力物力,並且在資料準確性、即時性上無法得到保證。 」
(責任編輯:呂光)