標籤:移動互連網 技術 產品 廣告 如何
技術做到一定程度,逐步發現自己的瓶頸。不由得開始思考這一方面的問題!到底大資料時代下,是相應的資料分析技術重要,還是相應資料思維重要?
先來說資料思維吧!什麼是大資料思維,個人感覺應該是互連網思維的一種。是考慮到全面,而不是局部。是考慮到多維,而不是單一維度。不是靠拍腦門做決定,而是讓資料說話,用資料做決策。
先說第一點,考慮全面,而不是局部。眾所周知,移動互連網催生了大資料的產生。每一個人每一天通過手機能夠的資料總和會是一個巨大的量。而通過這些非結構化的資料,我們首先面對的是如何處理這些資料,這裡就涉及到資料的儲存,讀取的問題。由於資料的非結構化。傳統的處理技術將不能夠很好的起到作用。不是我們單一抽取幾個使用者的資料加以統計就可以預測出大量使用者的行為。這裡需要的全域的資料。首先,這一點是大資料相對於其他技術的第一點不同。
再來說第二點,考慮多維,而不是單一維度。大家都有目共睹,現在的廣告已經開始基於我們的瀏覽時間長度而進行二次推薦。而在進行多維分析後,將不再只關注使用者的瀏覽資料,而相應的會有使用者的文本資訊,好友評論,已購買產品資訊,用卡頻次.....當將使用者資料進行多個維度整合分析後,就可以做到精準營銷。從而打破傳統一維營銷的被動宣傳不叫好的特點。
最後再看第三點,讓資料說話,用資料做決策。在這裡不得不提一個軟體R,傳統行業的業務統計大部分是靠它完成,但他的資料呈現有一點的局限。當我們將一些資料以圖表的形式展現在領導面前時,我們就可以根據這些資料做新一年的年度規劃。而不至於拍腦門做決定。而且現在資料視覺效果的應用也是非常的多,現實的應用也展現了相應的價值。
說完了上面三點,再來說一說大資料技術。
首先必提的是Hadoop,這樣一個分布式的儲存現在已經在大部分公司專屬應用程式,而它的分布式儲存又將使用者的讀取時間縮短。而下一代技術Spark,也就相當於從Hadoop的硬碟存放,轉而到了記憶體存放。眾所周知,記憶體的讀取速度會比硬碟快許多倍。
其次再要說的就是SAS與R,這兩個軟體都有各自的優勢,SAS做為專業資料統計的軟體,可以說在大資料量時處理起來有顯著的優點。但在超過1T資料量的情況下,它的優勢就不再那麼明顯。而R軟體在繪圖上有很大的優勢,在資料視覺效果上有很重要的地位。但無奈,R軟體在統計上略遜色SAS一籌。而與SAS的同類軟體中,SPSS個人感覺在資料量小時會有很大的用途。
還有就是資料擷取,RCurl與相應的爬蟲技術,而在大資料時期,各網站在反爬蟲方面勢必會做要應的措施從而保護自身已有的資料。
還有就是ETL,這一點,個人感覺以後會在大資料落在時起到非常重要的地位。因為國內的資料大部分都需要清洗,就像我導師說過的一句話,在中國做大資料,最大的困難就是如何識別出假資料。用真實的資料才能分析出我們所要得到的結果。
好了,到此為止,以上就是自己學習到的大資料知識,分別在思維跟技術方面的認識。但問題又回來了,對於企業來講,盈利是最基本的選擇,到底是選一個具備大資料思維的人還是一個會很多大資料技術的人?而對於自己來說,下一步的方向是繼續學習技術,還是掌握相應的思維。
思維OR技術,或左或右?或都兩都需要融合,但話題又回來了,工作是很現實的問題,售前,諮詢,研發,架構,實施,工程.......到底該如何選擇,抑或就不要選擇,先靜下心來學習,等到在職的學習畢業後再去選擇工作。
面對轉行,從通訊培訓行業向互連網行業大資料的轉變,雖然不知前方道路如何,仍有些迷茫,但既然選擇前方,便只顧風雨兼程,加油!
本文出自 “資料採礦與可視化” 部落格,轉載請與作者聯絡!
大資料時代下是資料思維重要,還是相應技術重要?