標籤:
最近,大資料風靡一時,也成為我們碼農熱捧的技術。大家瘋狂的搭配hadoop環境,翻看各種hadoop技術的書,瀏覽hadoop、hive、storm等技術。過了一段時間,當我們想用這些技術對資料練習的時候。面對從網上下來了測試資料,要麼束手無策,要麼不管三七二十一就來一個統計迴歸模型。
我們對大資料以及大資料分析完全沒有頭緒,我們甚至對大資料技術產生了迷茫,產生了退縮。
當我們拿到資料應該怎麼做呢,如果不知道怎麼做,那就先進行探索性分析吧。
分析資料可以分為探索和驗證兩個階段。探索性資料分析(Exploratory Data Analysis,以下簡稱EDA),是指對已有的資料(特別是調查或觀察得來的未經處理資料)在盡量少的先驗假定下進行探索。特別是當我們對這些資料中的資訊沒有足夠的經驗,不知道該用何種傳統統計方法進行分析時,探索性資料分析就會非常有效。
探索性分析一般表現為長條圖和莖葉圖。探索性資料分析的基本工具是圖、製表和匯總統計量。一般來說,探索性資料分析是一種系統性分析資料的方法,它展示了所有變數的分布情況、時間序列資料和變換變數,利用散列矩陣圖展示了變數兩兩之間的關係,並且得到了所有的匯總統計量。換句話說,就是要計算均值、最大值、最小值、上下四分位元和確定異常值。
說了那麼多,那就來個例子吧。並給出R語言和spss實現。
附件的資料共有5列,分別為:年齡、性別、廣告次數、點擊次數和是否登入。
R語言的實現:
1 root="F:/dds_datasets/dds_ch2_nyt/" 2 setwd(root) 3 file<-paste(root,"nyt1.csv",sep="") 4 nytdata<-read.csv(file) 5 head(nytdata) 6 nytdata$agecat<-cut(nytdata$Age,c(-Inf,0,18,24,34,44,54,64,Inf)) 7 summary(nytdata) 8 9 install.packages("doBy")10 library("doBy")11 siterange<-function(x){c(length(x),min(x),mean(x),max(x))}12 summaryBy(Age~agecat,data=nytdata,FUN=siterange)13 summaryBy(Gender+Signed_In+Impressions+Clicks~agecat,data = nytdata)14 ##先畫出長條圖圖15 16 install.packages("ggplot2")17 library("ggplot2")18 19 ggplot(nytdata,aes(x=Impressions,fill=agecat))+geom_histogram()20 #ggplot(nytdata,aes(x=Impressions,y=agecat,fill=agecat))+geom_area()
View Code
分析結果如下:
spss實現比較簡單,通過嚮導匯入資料,選擇 分析-資料描述-探索就行了。
我也是碼農中的一員,大資料對我來講我也是初學者,前段時間開始學習R語言,感興趣的同仁可以進來互相交流。
不知道在哪可以傳附件,暈了。。。。。。。有需要資料的請聯絡我。
大資料分析(一)探索性分析