切勿盲目「跟風」 你全面認識大資料了嗎?

來源:互聯網
上載者:User

仲介交易 HTTP://www.aliyun.com/zixun/aggregation/6858.html">SEO診斷 淘寶客 雲主機 技術大廳

近年來,有關大資料的熱點話題一浪高過一浪,關注大資料應用的人也越來越多。 總體來說,人們對大資料的前景持樂觀態度,比如談到大資料的技術特徵,人們最容易想起的就是4個「v」:vast(數量龐大)、variety(種類繁多)、velocity(增長迅速)和value(總價值高)。 這些都沒錯,但仔細一想,它們都是偏重說明大資料的正面優勢的。 但其實,大也有大的難處,大資料也不可避免地存在著一些負面劣勢。 這些負面劣勢可以概括四點:

inflated——大資料是肥胖的。 大資料的大不僅僅體現在資料記錄的行數多,更體現在欄位變數的列數多,這就為分析多因素之間的關聯性帶來了難度。 哪怕是最簡單的方差分析,計算一兩個還行,計算一兩百個就讓人望而生畏了。

unstructured——大資料是非結構化的。 大資料的結構也是非常複雜的,既包括像交易額、時間等連續型變數,像性別、工作類型等離散型變數這樣傳統的結構化資料,更增添了如文本、社會關係網路,乃至語音、圖像等大量新興的非結構化資料, 而這些非結構化資料蘊含的資訊量往往更加巨大,但分析手段卻略顯單薄。

incomplete——大資料是殘缺的。 在現實的世界裡,由於使用者登記的資訊不全、電腦資料存儲的錯誤等種種原因,資料缺失是常見的現象。 在大資料的場景下,資料缺失更是家常便飯,這就為後期的分析與建模品質增加了不確定的風險。

abnormal——大資料是異常的。 同樣,在現實的世界裡,大資料裡還有不少異常值(outlier)。 比如某些連續型變數(如一個短期時間內的交易金額)的取之太大,某些離散型變數(如某個被選購的產品名稱)裡的某個水準值出現的次數太少,等等。 如果不刪除,很可能幹擾模型係數的計算和評估;如果直接刪除,又覺得缺乏說服力,容易引起他人的質疑。 這使得分析人員落到了一個進退兩難的境地。

古有孔子「溫故而知新」,而今,人們利用大資料的分析,已經可以預見和分析出很多當下時代的大趨勢了。 但是,這些分析資料的真實性怎麼保證呢?目前,我國的大資料正處於發展中階段,如果不能處理好這些不利因素就盲目「跟風」去運用,那麼大資料應用的優勢很難發揮出來。 想要真正運用好大資料,並不是一項在常規條件下資料分析的簡單升級,而是一項需要大智慧的綜合工作。

其實,只要是有效地利用大資料,就可以即時監控各種潛在風險,提高生產效率,更重要的是為企業提供諸多洞見,提升投資回報和競爭優勢,而且有助於企業從多維度判斷全球市場潛在商機,實現跳躍式快速發展。 如果沒有一個全面、客觀認識大資料的過程,即便我們能很容易的利用大資料得到很多可預見的資料,又有幾分準確性?

所以,我們必須要對大資料有一個全面、客觀的認識。 文中提到的四個難點,也是必須要重視的。 只有在不同的業務和資料背景下採用不同的戰略戰術,才能在大資料時代,真正發揮大資料的杠杆作用,有效提高企業的運營效率和市場競爭力。

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.