標籤:blog http 使用 ar 檔案 資料 2014 問題 sp
身邊的大資料和我們的著手點
2014年8月17日~
從上次在圖書館外等小孩借書開始考慮這個問題,已經有好幾個月了。一直在思考,也動手做了一些嘗試,但是一直“在過程中”。期間,再次翻閱了《大資料時代》和相關的網上資源,每天除了工作,總在思考將這段的思路總結一下。
早期的精確統計,或隨機取樣,到現在的“樣本=全部”的大資料思想出現,我感覺我們可以做點事情了。雖然一直忙碌於“公司專屬應用程式”的事情,不過總有一份“互連網的基因”存在。從最早採集的50多POI,到最近收集的300多移動上網過程資料,做一個資料分析,做一下大資料時代的嘗試。
大資料發展的核心動力來源於人類測量、記錄和分析世界的渴望。資訊技術變革隨處可見,但是如今的資訊技術變革的重點在“T”(技術)上,而不是在“I”(資訊)上。現在,我們是時候把聚光燈打想“I”,開始關注資訊本身了。
不論是成熟的互連網還是正熱的移動互聯,都在每天產生大量的資料,如果不進行處理挖掘,這些資料將總是沉睡冰藏在各地的硬碟中。現在處理能力和儲存空間都變的越來越廉價,是時候將“資料”變成“資訊”,將“資訊”變成“知識”,用知識來指導組織的運營和個體的日常生活了。
“資料”可能還是硬碟的負載,“知識”就是提高人們幸福感的源泉。
本文是我在“負載”向“源泉”前進過程中的一些思考總結,供見著參考,希望同業者交流。
一、 多大算是大資料
據說微軟的拼字檢查基礎資料量是千萬條,Google的的智能翻譯基礎資料量是千億,有次聽利物浦大學的教授講的,所謂“大資料”至少要到10的10次方,到這個數量級,我們平常的資料來源是較難得到了。
不過,看《大資料時代》分析的摔跤比賽樣本,使用的是“11年時間裡,約64000場摔跤比賽的記錄”,要通過這些大資料來尋找其異常性。還是分析出了比賽成敗的人為因素和心理因素。
看來,所謂“大”,也要看資料樣本的對象了。所以我把這裡叫做“身邊的大資料”比較合適。這裡的身邊的大資料包括:我對自己的位置行為採集和記錄,一些參與測試者的上網過程記錄。
如果,你有自己的大資料資源,我們也可以一起分析。
二、 對大資料的期望
面對一個資料集合的時候,人都帶有一定期望的,至少是“初步的認識和期望”。如果漫無目的地“從裡面找出規律”,也不知道是什麼規律了。
“對資料特徵的初步瞭解和理解”,任何事情不可能憑空造出個演算法或模型來,就像“TRIZ理論”,對發明問題也可以提供些解決套路一樣。
聽過一個恐龍級公司分析銀行資料,基本的期望包括:
l 銀行使用者的資金變動情況,逐減的是夕陽客戶,波動式上升的就是朝陽客戶。
l 朝陽客戶的地區分布情況,增加相應的門店和客服經理,提升客戶服務的滿意度。
l 朝陽客戶的行為特徵,提供更加貼心的服務,挖掘潛在的客戶價值。
l 門店的儲戶增長情況,儲蓄增長情況。月度,年度波動情況,避免騙儲增業績的情況。
l 在初期“期望項”之外,在資料分析過程中,一些中間結果,做一些統計分析,可以產生其它資料結果,比如:
n 客戶的年齡段
n 不同客戶到訪門店的時間段特徵
n 不同時間段,不同門店的排隊情況
n 重要客戶車位佔用和預留計劃
n 客流量和天氣的關聯變動
n 儲蓄量、投資量與國家經濟增長的關聯變化
n 銀行關鍵業務指標預測和後續投資量
n 投資和風險回報的關聯關係
三、 資料處理過程和產生的結果
首先,持有一個大資料集(比如銀行),或者能獲得持續增長的大資料來源(比如互連網應用),根據對資料特徵的初步瞭解和理解,進行統計分析,可以產生初步的資料規律模型。
模型的建立和改進,可以從以下維度,從對資料的基礎特性瞭解和理解,建立多維度模型:
l 期望的結果模型
l 分析過程中間結果模型
l 實際結果模型
l 人工辨識的資料特徵模型
l 多維度資料統計模型
2014年9月3日,百度世界發布的大資料應用產品“城市預測”,“景點預測”,“高考預測”,“世界盃預測”,“歐洲聯賽預測”,“經濟指數預測”。雖然感覺玄妙,但是對掌握這樣的資源,有能建立相應的預測模型還是佩服不已。
四、 我的資料處理模型
建模(提綱):
l 時間特性
l 地點和位置特性
l 日增特性
l 人的移動特性(軌跡)
l 異常排序統計
l 上網過程和天氣變化的關聯
l 綜合分析出人的特性
至目前,已有的“大資料集”,按照以上模型進行一次單機“非遍曆”處理,需要45分鐘以上。接下來我計划進行一些專業處理環境的搭建和嘗試。
歡迎關注後續。謝謝!
五、 附錄Hadoop和Storm
Storm是一個免費開源、分布式、高容錯的Realtime Compute系統。它與其他大資料解決方案的不同之處在於它的處理方式。
Hadoop 在本質上是一個批處理系統,資料被引入Hadoop檔案系統 (HDFS) 並分發到各個節點進行處理。當處理完成時,結果資料返回到 HDFS 供始發者使用。Hadoop的高吞吐,海量資料處理的能力使得人們可以方便地處理海量資料。但是,Hadoop的缺點也和它的優點同樣鮮明——延遲大,響應緩慢,營運複雜。Storm就是為了彌補Hadoop的即時性為目標而被創造出來。
S語言和R語言
S語言是由AT&T貝爾實驗室開發的一種用來進行資料探索、統計分析、作圖的解釋型語言。它的豐富的資料類型(向量、數組、列表、對象等)特別有利於實現新的統計演算法,其互動式運行方式及強大的圖形及互動圖形功能使得我們可以方便的探索資料。
目前S語言的實現版本主要是S-PLUS。它基於S語言,並由MathSoft公司的統計科學部進一步完善。作為統計學家及一般研究人員的通用方法工具箱,S-PLUS強調示範圖形、探索性資料分析、統計方法、開發新統計工具的計算方法,以及可擴充性。
S-PLUS可以直接用來進行標準的統計分析得到所需結果,但是它的主要的特點是它可以互動地從各個方面去探索資料中的資訊,並可以很容易地實現一個新的統計方法。
R語言是統計領域廣泛使用的,誕生於1980年左右的S語言的一個分支。 R語言是S語言的一種實現。S語言是由AT&T貝爾實驗室開發的一種用來進行資料探索、統計分析、作圖的解釋型語言。最初S語言的實現版本主要是S-PLUS。S-PLUS是一個商業軟體,它基於S語言,並由MathSoft公司的統計科學部進一步完善。
R是一套完整的資料處理、計算和製圖軟體系統。其功能包括:資料存放區和處理系統;數組運算工具(其向量、矩陣運算方面功能尤其強大);完整連貫的統計分析工具;優秀的統計製圖功能;簡便而強大的程式設計語言:可操縱資料的輸入和輸出,可實現分支、迴圈,使用者可自訂功能。與其說R是一種統計軟體,還不如說R是一種數學計算的環境,因為R並不是僅僅提供若干統計程式、使用者只需指定資料庫和若干參數便可進行一個統計分析。R的思想是:它可以提供一些整合的統計工具,但更大量的是它提供各種數學計算、統計計算的函數,從而使使用者能靈活機動的進行資料分析,甚至創造出符合需要的新的統計計算方法。
本文地址,http://blog.xufun.cn/?p=655
身邊的大資料和我們的著手點