資料再「大」無用武之地等於零,要搜集「慢資料」 「活資料」
互聯網上每時每刻都在產生資料,人們生活中無所不在的各種設備,比如電腦、手機、智慧電器、感應器等等,都能時刻留下人的行為痕跡,即時產生資料,這些呈幾何級增加的資料沉澱在網上,成為大資料。 這些大數
資料再「大」無用武之地等於零,要搜集「慢資料」 「活資料」
互聯網上每時每刻都在產生資料,人們生活中無所不在的各種設備,比如電腦、手機、智慧電器、感應器等等,都能時刻留下人的行為痕跡,即時產生資料,這些呈幾何級增加的資料沉澱在網上,成為大資料。 這些大資料有多大用?
2014年5月29日,百度董事長兼CEO李彥宏在第九屆百度聯盟峰會上預測了「未來5年有非常大的發展」的兩大產業機會,這兩大產業是 「BAT(百度、阿裡巴巴、騰訊)三者都不會涉足的領域」 :1.新型企業級軟體,解決企業從內部到外部連結的問題;2.挖掘新的有價值的「慢資料」,發掘 個人化的預測資訊,為使用者尋找真正有價值的新資料。
李彥宏的分析有權威性、有說服力——在使用者規模擴大、流量激增的情況下,目前互聯網企業面臨尷尬:搜集上來真正有價值的資料很少,無價值數 據增多,有價值資料積累並不比傳統企業更有優勢。 「比如最近比較火的智慧硬體,手環、眼鏡,搜集很多的資料,但這些資料拿過來,總覺得用不上,沒法分 析。 」為此,他建議企業通過搜集「慢資料」來獲取真正有價值的資料,找准並挖掘能真正説明使用者解決問題的新資料。 這一判斷,對報業這樣的傳統企業來說既是 一種安慰,更是鼓舞。
另一個與之印證的觀點是,阿裡巴巴集團執行副總裁曾鳴最近有一篇長文分析說,大資料最重要的特徵不在大小,而在死活。 資料的死活決定一切,從資料的管理到資料的運用,資料必須能活起來,開始跑通反覆運算,才能產生持續價值。
既然傳統媒體與新興媒體及很多大企業一樣,對如何用好大資料基本站在同一起跑線上,對報業來說,如何利用自身優勢和資源去發掘、應用好「慢資料」「活資料」,讓大資料成為報業未來的一大新增長點,就成為迫切需要研究解決的重要課題。
報業在大資料產業中的一席之地在哪兒?
《大資料時代》的作者維克托·邁爾·舍恩伯格被譽為「大資料商業應用第一人」,他描述了大資料價值鏈的三大構成:第一種是基於資料本身的公 司,這些公司擁有大量資料或者可以收集到大量資料。 第二種是基於技能的公司,它們通常掌握了專業技能,但並不一定擁有資料,往往是技術供應商、分析公司或 者諮詢公司。 第三種是基於思維的公司。
在互聯網上,任何主動收集龐大資料的行為,其成本都難以想像。 因此,基於資料本身的第一種公司在價值鏈中處於最核心的位置,比如美國的谷 歌、蘋果、Facebook、亞馬遜,中國的騰訊、阿裡巴巴、百度。 他們的優勢是大資料聚合和模型構建,他們也想方設法把自己打造成基礎設施和平臺,使大 資料在自己的平臺上發揮出最大效用。
比如,2014年4月百度正式發佈了大資料引擎,將核心大資料能力開放,向外界提供大資料存儲、分析及挖掘的技術能力,以更好地説明傳統行 業挖掘資料價值,加快傳統行業轉型升級。 百度聯盟將基於「開放雲」「資料工廠」「百度大腦」三級開放平臺,推進「人找資訊」向「資訊找人」的變革,為媒 體、DSP、廣告主、代理商提供更簡單、高效的推廣及變現平臺。
而具有資料思維和資料技術的公司,在未來競爭中也處於有利地位,圍繞著資料化變革,將衍生出新的商業模式。 一是資料資產存儲,二是資料資產定價,三是資料資產仲介,四是資料資產管理,五是資料驅動的解決方案。 ①
從價值鏈和報業傳統優勢的角度分析,報業即使在採集、處理、儲存、傳播等各方面完全數位化後,即使資料量再大,與那些互聯網入口企業相比、 與真正生成大資料的公司相比,那點資料還遠遠不夠大,因此不可能去做基於資料本身的公司。 比較理性、可行的選擇是,傳統報業對大資料的運用著力點應是資料 資產仲介、資料資產管理、資料驅動的解決方案三大類。
資料資產仲介——這個應用領域對媒體來說並不陌生,比如彭博社、路透社和《朝日新聞》、日本經濟新聞社等新聞機構,收集免費的資料製成資料庫,通過資料的加工和組合、分析產生新的價值,再賣給有需求的企業、機構。 這是一些大通訊社和財經專業媒體的強項。
資料資產管理——聽起來有點兒抽象,但其中可操作的內容對報業並不陌生。 比如,網路上每天產生各種新聞、資訊,特別是負面新聞、評論,無論 對機構、企業和個人而言都是正面或負面資產,既然是資產,如何管理就是一門生意。 輿論監督本就是報業的核心功能之一,加之媒體對輿論危機公關比較擅長,由 此延伸到資料資產的管理,角色跨度並不很大,不失為基於報業資源優勢的一種務實選擇。
再看資料驅動的解決方案——對報業來說其應用領域相當廣泛。 未來,媒體在做好社會記錄者與資訊傳播者外,更應定位成社會解讀者和分析預測 者,做好資訊和資料的深度加工、深度解讀和去偽存真的服務,而大資料無疑能成為報業進行全面深刻洞察的一大利器。 下面將具體分析。
據有多大用?
2014年5月29日,百度董事長兼CEO李彥宏在第九屆百度聯盟峰會上預測了「未來5年有非常大的發展」的兩大產業機會,這兩大產業是 「BAT(百度、阿裡巴巴、騰訊)三者都不會涉足的領域」 :1.新型企業級軟體,解決企業從內部到外部連結的問題;2.挖掘新的有價值的「慢資料」,發掘 個人化的預測資訊,為使用者尋找真正有價值的新資料。
李彥宏的分析有權威性、有說服力——在使用者規模擴大、流量激增的情況下,目前互聯網企業面臨尷尬:搜集上來真正有價值的資料很少,無價值數 據增多,有價值資料積累並不比傳統企業更有優勢。 「比如最近比較火的智慧硬體,手環、眼鏡,搜集很多的資料,但這些資料拿過來,總覺得用不上,沒法分 析。 」為此,他建議企業通過搜集「慢資料」來獲取真正有價值的資料,找准並挖掘能真正説明使用者解決問題的新資料。 這一判斷,對報業這樣的傳統企業來說既是 一種安慰,更是鼓舞。
另一個與之印證的觀點是,阿裡巴巴集團執行副總裁曾鳴最近有一篇長文分析說,大資料最重要的特徵不在大小,而在死活。 資料的死活決定一切,從資料的管理到資料的運用,資料必須能活起來,開始跑通反覆運算,才能產生持續價值。
既然傳統媒體與新興媒體及很多大企業一樣,對如何用好大資料基本站在同一起跑線上,對報業來說,如何利用自身優勢和資源去發掘、應用好「慢資料」「活資料」,讓大資料成為報業未來的一大新增長點,就成為迫切需要研究解決的重要課題。
報業在大資料產業中的一席之地在哪兒?
《大資料時代》的作者維克托·邁爾·舍恩伯格被譽為「大資料商業應用第一人」,他描述了大資料價值鏈的三大構成:第一種是基於資料本身的公 司,這些公司擁有大量資料或者可以收集到大量資料。 第二種是基於技能的公司,它們通常掌握了專業技能,但並不一定擁有資料,往往是技術供應商、分析公司或 者諮詢公司。 第三種是基於思維的公司。
在互聯網上,任何主動收集龐大資料的行為,其成本都難以想像。 因此,基於資料本身的第一種公司在價值鏈中處於最核心的位置,比如美國的谷 歌、蘋果、Facebook、亞馬遜,中國的騰訊、阿裡巴巴、百度。 他們的優勢是大資料聚合和模型構建,他們也想方設法把自己打造成基礎設施和平臺,使大 資料在自己的平臺上發揮出最大效用。
比如,2014年4月百度正式發佈了大資料引擎,將核心大資料能力開放,向外界提供大資料存儲、分析及挖掘的技術能力,以更好地説明傳統行 業挖掘資料價值,加快傳統行業轉型升級。 百度聯盟將基於「開放雲」「資料工廠」「百度大腦」三級開放平臺,推進「人找資訊」向「資訊找人」的變革,為媒 體、DSP、廣告主、代理商提供更簡單、高效的推廣及變現平臺。
而具有資料思維和資料技術的公司,在未來競爭中也處於有利地位,圍繞著資料化變革,將衍生出新的商業模式。 一是資料資產存儲,二是資料資產定價,三是資料資產仲介,四是資料資產管理,五是資料驅動的解決方案。 ①
從價值鏈和報業傳統優勢的角度分析,報業即使在採集、處理、儲存、傳播等各方面完全數位化後,即使資料量再大,與那些互聯網入口企業相比、 與真正生成大資料的公司相比,那點資料還遠遠不夠大,因此不可能去做基於資料本身的公司。 比較理性、可行的選擇是,傳統報業對大資料的運用著力點應是資料 資產仲介、資料資產管理、資料驅動的解決方案三大類。
資料資產仲介——這個應用領域對媒體來說並不陌生,比如彭博社、路透社和《朝日新聞》、日本經濟新聞社等新聞機構,收集免費的資料製成資料庫,通過資料的加工和組合、分析產生新的價值,再賣給有需求的企業、機構。 這是一些大通訊社和財經專業媒體的強項。
資料資產管理——聽起來有點兒抽象,但其中可操作的內容對報業並不陌生。 比如,網路上每天產生各種新聞、資訊,特別是負面新聞、評論,無論 對機構、企業和個人而言都是正面或負面資產,既然是資產,如何管理就是一門生意。 輿論監督本就是報業的核心功能之一,加之媒體對輿論危機公關比較擅長,由 此延伸到資料資產的管理,角色跨度並不很大,不失為基於報業資源優勢的一種務實選擇。
再看資料驅動的解決方案——對報業來說其應用領域相當廣泛。 未來,媒體在做好社會記錄者與資訊傳播者外,更應定位成社會解讀者和分析預測 者,做好資訊和資料的深度加工、深度解讀和去偽存真的服務,而大資料無疑能成為報業進行全面深刻洞察的一大利器。 下面將具體分析。
借優勢和公信,做優質資料服務商
資料驅動的解決方案至少可以覆蓋三大方面:一是個人化定制、精准推送內容和廣告;二是通過對大資料深加工,進行輿情、資訊的分析、研判和預測;三是資料新聞製作。
其一,量身打造個人化資訊內容,私人定制、精准推送內容、廣告。
傳統報業是粗放型、廣種薄收的傳播,把所有的新聞資訊向所有人傳播,缺乏針對性、精確度。 即便是網路媒體,也如騰訊網總編輯陳菊紅所說, 「目前入口網站之間、網路媒體之間同質化非常嚴重。 未來的媒體和入口網站應充分利用大資料和關係鏈,在為使用者篩選、推薦最適合的內容,提供近乎量身打造的 新聞資訊的同時,使他們體驗社交媒體的感受。 」
大資料時代,基於使用者興趣生產和傳播將是重要趨勢。 根據使用者上網的習慣、流覽的痕跡、參與的話題以及評論的內容,對其相當長時間的流覽資料 進行分析,便可獲知其上網習慣、喜好等等,根據這些資料,在最合適的時間以最恰當的方式向使用者推送其最感興趣的新聞,更進一步就是定制新聞。 「理論上每一 個使用者都可以被畫出一幅網路肖像,擁有一個屬於自己的UID(user identification使用者識別)號,個人的興趣圖譜一旦構建,就成為新聞生產的基礎。 而基於個人UID特徵和興趣圖譜進行的新聞生產不僅目標明 確,讓使用者更有黏度,而且有利於整合新聞資源,甚至自動生成匹配,達到高效精准的效果。 」②要做到這一點,就必須借助大資料技術和相關分析軟體,建立可挖 掘、可分析的使用者資源資料庫,通過對資料的整合和分析,針對不同的使用者需求,推出滿足使用者個人化和專業化需求的各類內容產品。
不僅是新聞生產,在廣告經營、活動行銷等各個環節,都須借助大資料和雲計算,以資料為核心優化內容、產品,進行市場分析、策劃、投放、行銷 決策、效果監測。 利用資料技術説明客戶定位目標使用者,並建立使用者資料庫,進行精准行銷。 這對傳統報業粗放式的發展,無疑是一個顛覆性的重構。
其二,資訊深加工、趨勢分析和輿情監測,應是傳統報業的優勢專案。
全球複雜網路研究權威亞伯特·拉斯洛·巴拉巴西曾指出:在大資料背景下,人類的很多行為都是可被預測的。 ③但是,海量的資料沉澱在網上,沒有精准而靠譜的分析和應用,就沒有價值。
以海量的政府資訊為例,交通運輸部網站2013年就發佈資訊12萬余條,食品藥品監管總局網站主動公開基礎資料庫43個,資料量166萬 條;國家統計局網站資料庫包含統計指標3萬多個、資料量600多萬筆...... 如此海量的資訊和資料中蘊含著多少更有價值的判斷、趨勢? 誰去收集、整理、分析、 挖掘這些並提供給公眾? 受眾期待媒體提供的,不單是「易碎品」新聞,而是範圍更廣的資訊類產品。 媒體不能滿足于當政府資訊的二傳手,而要從資料庫中深度發 掘有用資訊,進行趨勢分析。 ④
輿情研判顯然是大資料時代報業可一展身手的另一個領域。 媒體本來就是輿論工具。 社交媒體大發展後,網上輿論環境越來越複雜,網路已經成為輿 論主戰場。 要全面、快速地掌握網上傳播態勢,可以借助雲計算對散佈于各類網站、論壇、微博、SNS社區、微信的所有內容的流覽量進行即時監測,深度挖掘傳 播內容的變異和傳播參與者的特性,即時監測、分析,提出應對預案或相關預測,供政府機構、 企業甚至人個決策或應對時參考。
運用大資料進行輿情監測、趨勢分析,在媒體已有不少成功案例。 比如,英國《衛報》對倫敦騷亂事件的報導,美國《紐約時報》關於美國大選的預 測和報導。 在中國,很多媒體也開始做輿情分析。 比如,南京日報社新媒體中心就對2014年「南京小護士被打事件」這一熱點事件的微博傳播進行了輿情分析。
2月25日淩晨,「南京小護士被打事件」發生後,網上圍繞這一事件出現各種質疑和聲音。 《南京日報》法人微博@南京日報 針對「小護士被打 事件」,分別在2月27日及3月5日發出打人現場的視頻報導和後續處理報導。 兩條微博分別覆蓋50111171人次及5198413人次。 其中,2月27 日轉發層級有七層,第一層轉發有698人,直到第六層還有認證微博的轉發,到第七層還保持有10人的轉發,說明事件的吸引力非常強。 在轉發本條微博的粉絲 中,粉絲10000以上的達到69人,微博達人和認證使用者轉發量達到413人,官方及「大V」的轉發是事件發酵的一大力量。 3月5日17點54分,@南京 日報 發出了對「小護士被打事件」處理進展的通報,這條微博轉發量達到了3614次,覆蓋達到5198413人次,比第一條微博關注程度更高。 僅@馬伯庸 的轉發就被再轉發了1400次。 在傳播力上,無論是第一條還是第二條微博,「大V」和名人的轉發讓事件的傳播速度相當之快,基本在24小時之內迅速熱 炒。
這類還是最基本的分析,借助相關軟體,分析和判斷還可以深入到更深層次,並可提出應對熱點的相應舉措。 而真正在複雜的輿論環境中用好大資料技術還要假以時日。 應該說,這類大資料應用對傳統媒體來說,是優勢所在,是可以大有作為的領域。
其三,資料新聞為未來新聞內容打開充滿想像的空間。
資料新聞,指的是對資料進行分析與過濾,從而創作出新聞報導的方式。 是在上世紀60年代菲利浦·邁耶的《精確新聞》與《新精確新聞》的基礎 上發展起來的。 它可以解放新聞生產的思維方式,也創新了新聞的敘事形式,通過挖掘和展示資料背後的關聯與模式,運用豐富的、互動性的視覺化手段,説明公眾 理解正在發生的事件及其影響。 資料新聞可以大大提高新聞報導的科學性和真實性,使媒體從支離破碎的資訊和資料中發現規律和趨勢,使新聞報導達到以往達不到 的廣度、深度,獲得對社會更深刻的洞察、解讀與預見,使新聞更具有厚度、寬度。
資料新聞製作正在全球媒體中進行程度不一的嘗試,除了做得較早也很具代表性的英國《衛報》外,美國的《紐約時報》《華盛頓郵報》也都有很多 嘗試。 在中國,央視「晚間新聞」從2014年1月25日起正式推出大資料包道形態,從《「據」說春運》到《「據」說春節》《「據」說兩會》等等,到3月 15日共播出23期,成為國內最早系統、持續地通過大資料技術改進電視新聞播出形態的欄目 ,受到廣泛的關注,提高了收視率。
為了鼓勵資料新聞製作,由「全球編輯網路」和谷歌共同組織「資料新聞獎」于2012年5月31日首次頒出,共計51個國家286個參賽項 目,最終6件作品獲獎。 獲獎作品分三大類:資料驅動的新聞調查;用資料視覺化講述新聞故事;資料驅動的新聞應用,包括行動裝置和網頁。 第二屆在2013年 6月頒出,8件新聞作品從300多個參賽作品中脫穎而出,獲得了「資料新聞獎」。
資料新聞網聯合創始人馬金馨認為,資料新聞製作包括了海量資料的收集和整理,以及後期程式設計的實現,包括社科研究方法、電腦資料處理、平面與交互設計、網路程式設計等多個領域,投入非常大。 「就現階段來看,公眾的關注度並不高」「資料新聞很小眾,但很重要。 」
資料新聞的製作僅僅才是開始,呈現出來的產品層次也參差不齊,比如英國《衛報》實際操作中使用最多的主要是資料地圖、時間表和交互圖表;我 國一些媒體的資料新聞探索還停留在資料的視覺化操作上。 隨著技術的進一步發展和軟硬體的升級,以及傳統媒體與新媒體的全方位融合,生產、分析、解讀資料, 探索一條為受眾和使用者提供分眾化服務和體驗的發展之路,應是報業立足未來的一項功課。
眼下,我國已有報業集團佈局大資料領域。 浙報集團2013年開始投資資料分析專案,獲取使用者平臺,將目光放在了未來社交網路的資料深度挖掘 上。 今年4月,廣州日報傳媒股份有限公司(下稱「粵傳媒」)與甲骨文(中國)軟體系統有限公司簽定戰略合作協定,粵傳媒將與甲骨文進行資料共用與研究,有 望在軟硬體方面提升大資料的捕獲、組織、分析和決策能力,培育開放型的傳媒大資料系統。 並將與甲骨文公司展開多樣化的資料庫行銷合作,建立有效的資料庫體 系,實現資料庫行銷方面的收入拓展。
「新聞的未來,是分析資料。 」——這是「互聯網之父」蒂姆·伯納斯·李描述新聞未來的方向。 現在看,這確實是傳統報業值得重點佈局的領域, 但看到這點還遠遠不夠,姜奇平說:「資料量的快速增長,需要在頻寬和存放裝置等基礎設施方面加大投入,這令很多媒體進退維谷。 」如何切入大資料領域,做優 質資料服務商,不同的媒體也許會給出不同的答案。 (本文為江蘇省第四期「333高層次人才培養工程」資助科研專案的部分內容;作者是《南京日報》編委兼總 編辦主任、新媒體中心主任)