如果有一天你可以預測未來,你要做的第一件事情是什麼? 買彩票? 第二件、第三件事情呢? 先賣個關子,我們後面再說這件事情。
 
大資料是個產業,廣義上指的是在這個資訊超載時代圍繞著海量資訊產生、傳播、收集、處理、創造價值的整個產品鏈條;狹義上一般指大資料存儲與處理、資料採礦的相關產業。 目前市場上利用大資料最多的一般在於分析和預測。
 
根據本人10年來在這個行業的從業經驗,大資料與前兩年的雲計算、再往前的網格計算、平行計算都是相同產業鏈上幾個環節,它是作為概念被媒體和從業者炒作起來的。 但不可否認的是,我們的社會正處於資訊爆炸的時代,各行業的資訊量都在幾何級數增長,高效利用好這些資料確實能為工作和生活帶來巨大變革。
 
觀點1:資料本身不產生價值,如何分析和利用大資料對實際業務產生説明才是關鍵
 
例如,它可以説明控制美國占17.6%GDP的醫療支出,為醫藥行業帶來超過3000億美元的成本節省和收益(來自麥肯錫的報告)
 
Netflix 製作《紙牌屋》的故事很多人都聽過,說的是這家公司利用大資料分析了使用者最喜歡的情節、最喜歡的演員組合、最喜歡的編劇等等,組合起來之後自己製作了一部電視劇最終取得巨大成功。
 
雖然聽過故事的人很多,但幾乎沒有人注意到,這家公司是處於大資料應用鏈的頂端。 與提供分析服務、提供大資料存儲、提供資料清洗的基礎產業中下游公司不同,Netflix除了自身產生資料且具備分析能力外,關鍵的是具備把分析結果轉化為產品的能力,這才是產生高利潤和競爭力的核心。
 
觀點2:從事大資料的生意要重視投入與產出
 
大資料門檻很低,用一個Excel就可以起步,但隨著研究的深入,想利用大資料分析進行獲利,還是需要一定的預算和投入。
 
比如:需要專業的團隊,如大資料分析師,10年前這個職位就存在,叫BI(商業智慧),工作的內容就是分析大量的資料並通過建模等方式説明制定戰略或進行商業決策。
 
有了分析師就需要有配套的工程師配合,從海量的資料中挖掘出有價值的東西。
 
伺服器:大資料另一個要消耗的資源就是伺服器,從存儲到計算再到頻寬,都是需要不斷的進行投入的。
 
所以商業公司進入這個行業前要考慮下是否有足夠的預算,但同時上述的幾點也孕育了不少新的機會,比如amazon就是全球最大的雲計算基礎設施廠商,splunk和前一段上市的Tableau都是對分析師提供資料處理服務的, 相當於替代了一部分昂貴的工程師的工作。
 
觀點3:大資料不是最近才有的,資料一直存在,分析資料的技術近幾年有了革命性的突破
 
處理海量資料在技術界一直是個課題,幾個革命性的技術在近10年相繼出現,奠定了我們目前大資料的基礎,其中包括虛擬化技術、Map-Reduce & Bigtable 、 NoSQL資料庫、Deep Learning技術等。
 
虛擬化造就了今天的amazon雲服務基礎設施, map reduce造就了説明我們進行高速雲計算的hadoop開源軟體,之前處理幾天的資料現在幾分鐘就可以處理完。 NoSQL資料庫已經廣泛應用在了擁有大量資料及高訪問量的網站上,性能比傳統資料庫提升了許多。
 
觀點4:許多人已經默默地通過大資料獲利
 
商業公司通過長期研究,一旦發現了通過大資料獲利的秘訣,多數情況下還是選擇獨樂樂而不是眾樂樂。 因為分析方法和資料來源一旦公開,競爭對手必然會跟進,會導致了方法同質化最終體現在收益降低。
 
精准行銷是個眾所周知的領域,通過對每個人的資訊進行分類建模,進行不同種類的行銷。 比如搜尋引擎中,你長期搜索一些新的樓盤資訊,搜尋引擎會根據你的搜索歷史判斷你極有可能是潛在的買房者,美國target百貨公司就曾因為根據使用者的購物記錄判斷出一女孩懷孕並給其家裡投送孕婦購物手冊而名聲大噪。 在淘寶中搜索了旅行背包後,在新浪上都能看到相關旅遊用品的廣告。
 
但實際上大資料公司為了提高競爭優勢,已經並不滿足于這種有直接聯繫的資料,紛紛通過更多的途徑收集資料。 根據筆者這些年的見聞,在保護行業機密的前提下在這裡分享一些讀者之前沒聽過的乾貨。
 
1、路由器,之前只是上網的小盒子,在資料採購市場是極為炙手可熱的管道。 原因是近些年隨著手機硬體的發展(路由器和手機等行動裝置使用相似的晶片),尤其是處理器計算能力的幾何式增長,小小的路由器裡面已經可以運行很多程式,這些程式在使用者上網時默默的分析著各種各樣的資料,包括你常聯繫的好友資訊, 上網記錄等。
 
2、網路運營商,運營商喜歡在使用者流覽網頁時插入一些廣告,相信多數人都遇到過,和路由器的資料分析原理一樣,運營商並不滿足于千篇一律的固定展示廣告,也在與時俱進,利用大資料進行精准的個人化廣告行銷。
 
3、基礎軟體,如瀏覽器、輸入法。 不僅是電腦還包括手機,你用輸入法在各個軟體裡提交的查詢請求,在瀏覽器裡滑鼠移到某個商品上卻沒有點擊等等, 這些大資料都會被儲存到了雲上,供廠商進行分析。
 
4、金融公司。
 
提到革命性的技術,就不得不提到金融行業。 我們在文中前面提到過的大資料成本問題在金融行業就不是問題了,因為在這個行業新技術帶來的收益的提升都遠高於成本,故我們可以看到每一項新技術往往都會第一時間在金融業應用。 大資料也不例外,其實在很多年前大資料的資料採礦已經廣泛應用到了金融領域。 這裡我們要把博彩行業也歸為金融業。
 
直到今年美國才有零星應用的"商場人流量大資料監測系統"其實在許多年前就被應用到了澳門和美國拉斯維加斯的賭場,一家賭場安裝有上千個攝像頭,從顧客進門開始就通過面部識別技術開始追蹤,結合每個人的交易情況進行資料採礦, 除了找出老千等不受歡迎的人外,還能挑選大客戶,鼓勵非理性的賭客加大賭注等方式獲取更多利潤。
 
股市是除了博彩行業外另一個大資料超市,幾十年前的股市就是一個利用資訊不對稱獲利的市場,如今大資料分析成為了新一代有效的工具。 股票市場每時每刻都有海量的交易資訊,大資料分析技術一直伴隨著證券行業發展成長。
 
之前很多寫大資料的文章都會提到印第安那大學的研究人員研究發現通過分析twitter資訊中人們的情緒可以準確預測股市的漲跌,但在google搜索利用twitter資料進行交易的對沖基金只能找到倫敦的DCM一家。 原因正如上一段提到的,商業公司尤其是對沖基金都不會輕易暴露自己的運算邏輯,這個道理和《三體》中的「黑暗森林」邏輯是相同的。
 
但實際上,我們可以通過種種蛛絲馬跡發現twitter資訊已經廣泛被市場中的對沖基金使用。 比如只要好萊塢女星海瑟薇出現在頭條,"股神"沃倫-巴菲特的公司的A股股價就會上漲。 原因很簡單,女星海瑟薇的名字是Anne Hathaway,巴菲特的公司叫伯克希爾-哈撒韋公司(Berkshire Hathaway),兩者都包括Hathaway這個詞, 說明不少對沖基金都使用了即時分析twitter和新聞大資料的技術。
 
另外一個例子:一則假消息在twitter發佈:白宮發生了兩起爆炸事件,總統奧巴馬(Barack Obama)在事件中受傷,導致股市、歐元等相關全線在第一時間下挫,道指2分鐘下跌100多點,歐元也是強勢下行, 美國股市市值短暫蒸發約1,400億美元。 一次偶然的駭客惡作劇,又導致許多使用twitter資料對沖基金被暴露出來。
 
再舉個發生在身邊的例子,大家知道到券商開戶為什麼要填寫一張詳細的表格嗎? 上面會要求你填寫你的收入、投資經歷等,因為在華爾街,有非常成熟的模型可以通過你填寫的表格預測你未來的收益,同時分析大量的交易記錄針對不同種類的使用者進行相應的行銷與服務,目標同樣是提高利潤。
 
金融領域另一塊大的領域是信貸市場,國內最近也異常火熱,包括阿裡巴巴等公司早已進入。 新的P2P產業除了在商業模式、效率、使用者來源等與傳統銀行不同外,最關鍵因素之一就是大資料。 通過大資料可以解決信貸產業最核心的壞賬率問題。 阿裡巴巴通過其平臺上使用者的交易資料、好評率等完整的結構化資料可以非常容易的對使用者進行信用評估,但其他平臺沒有阿裡巴巴的資料優勢,就需要更多的資料採礦才能降低壞賬率從而盈利,國外最大的P2P公司比如Lending Club是經過了6年不斷完善才首次實現盈利,可見這個巨大的市場中我們面對的挑戰之大。
 
(責任編輯:蒙遺善)