文/雲計算與大資料的那些事兒(微信公眾帳號CCDCnewtrend)
大資料已經成為時尚詞彙,本思考,沒有邏輯,沒有體系性,片段式的,目的是提出問題。 思考中。 心中無「大師」,從現象入手,竊以為「大師」一詞僅僅適合於鬼神靈,不適合人。 此思考希冀引起思想碰撞,各種觀點,無論是鼓勵、批評,甚至攻擊,只要發至內心,都能夠促進思索。
結合大家的批評與建議,對一些集中問題點進行一些思考後的再補充,歡迎各路大俠溝通交流。
大資料思考之一
任何一個網站的資料都是人們互聯網行為資料的很小的一個子集,無論這個子集多麼全面,分析多麼深入,都是子集,不是全集。 對於企業來講,競爭對手的資料價值遠遠超過自己網站資料的價值,從量級上,對於所有公司都一樣,自己擁有的資料遠遠小於全集資料。 看起來的全資料恰恰是殘缺資料。
補充:一些朋友對「競爭對手的資料價值遠遠超過自己網站資料的價值」的判斷是錯誤的,我虛心接受,知己知彼很重要,實際的意義是「企業的生存關鍵不在於自己如何,而在於競爭對手如何,自己的事情必須做好,在此前提下, 競爭對手的資料價值遠遠超過自己網站資料的價值」
大資料思考之二
資料量的大幅增加會造成結果的不准確,來源不同的資訊混雜會加大資料的混亂程度。 研究發現:巨量資料集和細顆細微性的測量會導致出現「錯誤發現」的風險增加。 那種認為「假設、檢驗、驗證的科學方法已經過時」的論調,正是大資料時代的混亂與迷茫,人們索性擁抱凱文凱利所稱的混亂。
補充:舍恩伯格在《大資料時代》一書中提出的被廣泛接納:大資料「沒有精確只有混雜,沒有因果只有相關」的觀點是錯誤的。 混雜需要梳理成合理才有分析價值,無論是牛頓,愛因斯坦,還是韋伯的理想類型都是在混雜中尋找分析方法,相關很多時候是沒有找到因果之前的認識,因果與過程理解是研究的核心。
大資料思考之三
互聯網使用者的基本特徵、消費行為、上網行為、管道偏好、行為喜好、生活軌跡與位置等,反映使用者的基本行為規律。 體系完整是所有分析性工作的第一步,完整的框架甚至勝過高深的模型。 人類的認識最大的危險是不顧後果的運用局部知識。 如果只關心自己網站資料,其分析基礎必然是斷裂資料。
補充:斷裂資料的危害會在競爭激烈時日益凸顯,很多互聯網企業以CRM管理系統當成資料採礦與資料分析系統,觀念是錯誤的,CRM目的是規範性報表,資料分析與資料採礦的目的是探索性歸納。
大資料思考之四
現在談到大資料,基本有四個混亂觀念:第一,大資料是全資料,忽視甚至蔑視抽樣;第二,連續資料就是大資料;第三,資料量級大是大資料;第四,資料量大好于量小。 對應的是:抽樣資料只要抽樣合理,結論準確;連續只是一個資料結構;大量級的噪音會得出錯誤結論;大小與價值關係不大。
補充:現實互聯網領域被基本關於大資料的書籍所累,觀念十分混亂,實際上,人類積累的資料經驗是一切分析的基礎,包括所謂的海量資料,那幾本書的方法橫空出世,同時又沒有落地,沒有實際操作經驗積累,誤導性太強。
大資料思考之五
大資料不是新事物,天氣、地震、量子物理、基因、醫學等都是,借鑒他們的方法有益。 他們用抽樣調查。 互聯網資料採礦方法論也如此,不同的是更難,因為人的複雜性。 既然是關於人的研究就需應用所有研究人的方法梳理大資料。 只要懂程式設計、懂調動資料的人就可以做大資料採礦的說法是謬誤。
補充:大資料不是新的,只是出現了新的收集資料的快捷方法,所有關于人的研究方式與分析方法應用於大資料是資料採礦的核心,調動資料的能力僅僅是技術部分,關係類似導演與剪輯。
大資料思考之六
大資料分析中分析構架為第一要著,演算法也極為關鍵,在最近的大資料處理中發現:解析網址後的分類是是一個難點,主要有幾個方面,一個千萬人的網路行為資料一天產生的功能變數名稱大約50000個,雖然有一些演算法,但是混淆、難以辨認、 連續更新與判別是分析中的重要步驟,簡單分易,精細分難。
補充:演算法依賴于資料的構架,而演算法需要真正理解人的行為。
大資料思考之七
演算法中,只要包含文本,就必然有兩個關鍵基礎技術:關鍵字(字典)與語義分析,關鍵字技術成熟,語義技術是瓶頸,中文語義太難,能解決50%的團隊就不錯了,尤其是社交語言,比如"真可以! "何解? 需上下文。 希望風投們多鼓勵此類基礎技術研發,突破此瓶頸是大資料採礦的關鍵點之一。
大資料思考之八
社交資料採礦中,很多團隊集中在運用推特瀑布思路,就是視覺化技術,其構圖精美值得稱道,問題是,其理論還是沿用三十多年前的社會計量法,概念還是局限在點、橋、意見領袖等小群體分析,不適合巨網, 突破視覺化框架的社交分析需要理論探索和實踐努力。
補充:理解社交的意義比結構展示重要
大資料思考之九
移動互聯網對社會生活的影響本質是時間與空間的解構,分析這類大資料需要把握這兩點,如果僅僅分析app和網路使用行為,那麼分析上就失去了移動的意義,。 單純看流量、點擊率等簡單數位無法解決複雜的行銷問題。 不創新的延續原有思維模式是人類思考惰性。
補充:互聯網和移動互聯網是相關的兩件事情。