1、存在的背景
基礎設施的巨大飛躍,資料儲存技術、網路技術的迅猛發展,為大資料時代的到來準備了物質基礎。
物聯網本質上就是更多採集資料的入口和節點;雲計算培養了服務的商業模式和集中建設降低單位計算和存儲成本。 到了移動互聯網就更有意思了:第一個特點是身份,在合適的時間,合適的地點,將合適的資訊送給合適的人,你要知道你的對方是誰,他有什麼喜好,他現在是什麼狀態,沒有這個精准身份的資訊,一切都無從談起。 第二個就是連接,雙向適時的互動連接,有了網路以後,你想要什麼資訊,就從電腦上去索取。 手機我們一半除了拿資訊以外,我們另外一半推資訊,但是這個帶來的變化也就是資訊流動能夠更加適時了。 第三個是手機主要的特性,資訊是有位置屬性的。 最後是感應,我們電腦上已經不會再有太多的感應器了,手機上的感應器角度會越來越多,可穿戴的產品,未來我們的手機可以聞到味道,可以感受到甲醛超標,可以感受到電磁輻射。 這三樣結合在一起本質上就是產生、處理和應用了大資料,通過各種各樣新的技術和來説明我們解決各種各樣的問題,重新構建資訊流,資金流、物流。
2 、資料究竟有多大
大資料帶動方法論上的變化本質上是人的行為越來越被虛擬化,以前歷史上誰都不知道你在互聯網上是人還是狗,現在處處行跡處處痕,語言分析、自然語義處理、影像處理、信號處理、關係預測來精准預計,導致全球資料量每兩年翻一翻。 隨著Iphone和各種安卓普及,每個人在雲端都有幾個G幾個T的網盤,存著各種各樣的資訊,大到一定程度,根本沒法處理,我們叫做狹義的大資料。 有很多的新的電腦的處理方式,存儲方式,和數學建模的方式去分析這些資料,那資料根據訪問頻次又分冷資料和熱資料。 當年由於熱資料所帶來的資訊量意義更大,關注度集中在此,數學上的方法也是基於統計抽樣。 奇妙的關聯度:但隨著計算和存儲成本的降低,發現可以處理全量資料,全量資料堆積在一起發生了非常多奇妙的現象。 有些對當前的科學都有重大影響,當年基於統計、抽樣建立起來的模型極有可能是錯的,比如開普敦定律和冥王星的失誤。 這個可以參考我和國棟共著的大資料時代的歷史機遇一書。 所以在狹義的定義下會出現IBM和IDC定義的4個V,資料規模(Volume)、快速(Velocity)、多樣的類型(Variety)據價值(Value)。
3、為什麼大資料會如此轟動? 我認為是深遠的社會背景,更重要是資料思維
首先就是我一直提的資料思維,所謂的資料思維,要重視資料的全面性,而非隨機的抽樣性。 其次:就是關注資料的複雜性,弱化精確性,以前我們就有很多人要求一是一,二是二,現在大資料裡面我們就不要求那麼精了,我們要求一個大的框架,模糊的準確度趨勢的判斷第三大資料是一種重新評價企業、商業模式的新方法了, 資料成為核心的資產,並將深刻影響企業的業務模式,甚至重構其文化和組織。
我定義了從五大維度:活性、顆細微性、維度時空、情緒第一個叫活性,基本上你在互聯網公司裡面,比如你用阿裡的服務,可能每天使用3到5次,但是你知道銀行的網點你可能一個月或者更多時間才去一次。 第二個稱之為叫顆細微性,就是你在電商的平臺上從你進店到購物、到形成採購、到物流、到運送、到配送、到最後的評價跟分享,所有的環節都給你充分的記錄起來,這是很重要的,我稱之為顆細微性, 銀行我們現在看到的資訊的資料或者金融的資料就是水電、煤氣加成本,再加上你的工資到賬日期,這個資料是非常粗糙的。 三個是稱之為維度,像易寶支付,當你使用他的資料以後你的資料就留在他那裡面,這樣有更多的維度進行資料相關的處理和分析。 第四遠近。 當某個人有貸款需求的時候,我的金融機構,我的互聯網公司,很有可能是第一個能知道你有貸款需求的,或者線上的時候知道,我可能第一時間就知道這個客戶,銀行知道這個過程中間還有很多,這是一個,這是遠近。 最後一個我們稱之為叫情緒,你在微博上發的任何一條資訊都是帶有情感的,你有情感之後就知道你的狀態,就知道採取任何的行銷是不是有用。
4 、接下來發生怎樣的事情? ——泛互聯網化
軟體、硬體會免費,成為收集資料的入口行業垂直整合:一開始是軟體做硬體、互聯網公司做硬體和軟體,接下來就是電商做金融、金融做電商、軟體公司提供增值服務。 為什麼? 一旦需要無線的靠近客戶之後,就要服務客戶需求的一切,行業的邊界在不斷被打破資料成為資產:資料會變得越來越重要,是一切商業模式起源和重構的基礎。
5、在中國和全球的情況全球範圍看,這種變革正在發生
互聯網行業首當其衝,接著是商業智慧與諮詢服務領域、零售行業,還包括醫療、衛生、交通、物流甚至生物科技、天文...... 大資料催生的資料服務意識和能力,正在影響這個社會的方方面面,從商業科技到醫療、政府、教育、經濟、人文以及社會的其他各個領域,並催生了了各行各業的變革力量。 也就是我們所說的跨界顛覆者。 我把大資料技術分為傳統企業級別,和創新市場。 企業級別市場還是IBM、EMC、惠普、Oracle新瓶裝舊酒,那些商業智慧資料處理的老產品來取代,更多的只是忽悠客戶來幹幹資料分析的活。 當時在另外一方面,像google\facebook,國內的BAT等是真正在考慮大資料的。 而且以阿裡引導的去IOE的大趨勢,也是體現了在未來移動化和大資料浪潮下,老外的產品無法滿足國內快速、開源、便捷的增長需求。 在創新市場裡面的大資料技術:一方面,以開源為主。 即便是IBM、Oracle等行業巨擘,也同樣是集成了開源技術,和本公司原有產品更好的結合而已,在新興的大資料處理領域,中外公司幾乎站在同一起跑線。 單純考慮狹義的大資料處理技術(如Hadoop、MapReduce、模式識別、機器學習等),中外差距很短左右。 如果考慮數位資產規模以及利用的技術,中外差距更多體現為意識上的差距。 像阿裡已經完全取代了IOE的產品,當前不僅自己用,而且還提供了阿裡雲對外輸出。 節省20億IT開支,像亞馬遜已經把EC2和S3成為較大的盈利點。 而且阿裡現在的處理能力每秒達到1億次,超過了4大行的綜合(馬雲前幾天在人民銀行的忽悠)另一方面,中國人口和經濟規模,決定中國的資料資產規模,冠于全球。 客觀上為大資料技術的發展,提供了演練場。 比如我之前在甲骨文的時候是三大運營商的諮詢經理,每次遇到客戶客戶都提,我們的資料量全球第一。 神槍手是靠子彈磨練出來的,好的產品也是靠資料量出來的。 在阿裡,京東、百度相關公司,不管是客戶需求驅動、還是成本驅動都開始了替代過程,我認為這個變化趨勢會進一步傳導到金融、電信、政府等重要IT投入行業中。
6 、幾家典型公司的大資料
百度擁有中國最大的消費者行為資料庫,覆蓋95%的中國線民,日均回應50億次搜索請求,搜索市場占比達80%,百度聯盟,60萬聯盟合作夥伴每天有50億次的日均行為產生,這些構成了巨大資料的基礎。 變現模式:推百度指數,並在百度指數的基礎上建立百度風雲榜;百度資料中心,研究機構的方式網路搜索諮詢報告。 廣告站長和開發組提供的百度(移動)統計以及相關的開發者服務工具。
騰訊則超過7.836億QQ活躍帳戶,4.69億微博使用者和超過1億的視頻使用者、5.976億QQ空間使用者,微信、手機管家等帶來的移動使用者也超過了4億,海外使用者快超過1億。 除卻海量使用者,騰訊「N個產品×N個平臺×N個終端×N個使用者關係」的龐大服務矩陣,帶來資料的非結構化、碎片化、海量化。 變現工具只有:騰訊分析和騰訊羅盤。
馬雲宣稱平臺、金融和資料是阿裡未來的三大戰略方向。 阿裡未來本質上是一個資料公司,電商越來越離不開資料,金融的核心也是資料。 收購的新浪微博、友盟、高德、丁丁等就是為了圈資料。 相關的東西我都噴過數百次了,就不詳細展開。 負責人:車品覺,有意思的產品:內部的淘資料、KPI系統、資料門戶、活動直播間、賣家雲圖、頁面點擊、黃金策;給客戶提供的資料魔方、無量神針和類目360、淘寶指數最具備劃時代意義的2012年阿裡又推出了「聚石塔」 產品可提供資料存儲、資料計算兩類服務2012年「雙11」那次191億元的大促銷當天,「聚石塔」處理的訂單超過天貓總量的20%,比平時增長20倍。 阿裡金融是大資料衍生產品開發的一個範例。 阿裡由於電商特性他在應用上走得是最遠的。
7 、產業鏈的分類與規模
相關的基礎產業還挺多的,一是資料技術產業,包括硬體方面的智慧管道、物聯網、伺服器、存儲、傳輸、智慧行動裝置等,軟體方面的語言、資料平臺、工具、結構與非結構資料庫、應用軟體等,服務方面的IDC、雲計算、WEB應用等 ;二是資料獲取,包括定位、支付、SNS、郵件等行業;三是資料工業,包括資料採礦、資料分析、資料諮詢等產業;四是資料應用業:比如基於資料產生的互聯網金融。
8、對大資料的總結:
一種思維:資料思維
兩大推動 :極致體驗、長尾效應
三大趨勢 :泛互聯網、垂直一體化、資料是資產
四大步驟 :入口、流量、資料、變現
五大標準 :活性、顆細微性、維度 時空、情緒
六大模式 :資料、資訊、諮詢、媒體、資料使能、技術
七字心決 :專注、極致、口碑、快
(責任編輯:mengyishan)