標籤:
大資料正在改變我們的生活,影響我們思考和解決問題的方式,為了適應時代的潮流,組織必須學會用資料說話,如果坐擁大量的資料卻束手無策或無動於衷,那和沒有資料是一樣的。但是,在進行資料分析時,完全的自我創造是不可取的,因為有大量可以遵循和借鑒的經驗能節約大量的時間和成本。最近,OrionX.net的聯合創始人Shahin Khan就發表了一篇文章,介紹了他的團隊從大資料、物聯網和雲端運算市場上總結的經驗和規律。
正因為保留了足夠多的資料,大資料才成為可能,因此無論如何都不要刪除資料,因為你不知道什麼時候會用到它,刪除這些資料會有哪些法律風險。保留資料的成本很低,另外,如果將來發生了什麼事情,你也能從這些資料中找到證據。
大部分資料收集工作關注於進行中的活動,但一旦知道了如何使用這些資料,擷取更多資料的意願就會增加。
很少有中等規模的大資料系統,一旦某個項目的理念被證明是有前景的,那麼它很快就會變大,並在迅速發展的同時孵化新項目。
未使用的資料是一種閑置的資產,很有可能會造成價值的貶值。如果將大資料看做是工作流程,那麼必須將資料流向最有價值的地方。
大資料的大部分應用情境都是有價值的,值得付出努力,但是它的因果關係非常複雜,資料的不完整、使用者的偏見不可避免。
資料有很多,但通常情況下大部分都是無用的,只有一少部分有價值。收集的資料越多,這種現象越明顯,也就是說無關資料的增長速度要遠高於相關資料的增長速度。
分析完成之後便需要合成,當然這需要引入機器學習和認知演算法。
資料是一種資產,雖然它可以升值,但大多數時候隨著新資料替代老資料,曆史資料的價值會越來越低,因為它的相關性會越來越差。所以必須知道資料的“利率”,知道它貶值的速度有多快。
資料的品質直接影響資料採礦的品質。
資料量越大,從中找到有價值資訊的難度就越大,資料的複雜性、不合理的動機和無知都可能會造成無效的結論;但另一方面,資料越多,支援假設的證據就會越充分,通過完全科學的方法,有時這種支援率甚至會逐漸接近100%。
在新媒體時代,有趣但膚淺的內容要比深刻有見地的內容多得多,價值挖掘需要對資料有深刻的理解,但這需要時間。
如果有200行資料,可以使用試算表;但如果有20億行資料,就必須使用HPC。此外,隨著資料量的增長,還需要數學和科學的知識將資料轉換成模型。
大資料大規律