大資料和你想的不一樣

最後更新：2018-10-04 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

標籤：span ace count 努力資料量替代一件事 data com

1、對，我們做大資料的也寫普通的 Java 代碼，寫普通的 SQL。

比如 Java API版的 Spark 程式，長得跟 Java8 的Stream API 一樣一樣的。

JavaRDD<String> lines = sc.textFile("data.txt");
JavaRDD<Integer> lineLengths = lines.map(s -> s.length());
int totalLength = lineLengths.reduce((a, b) -> a + b);

再比如，刪除一個 Hive 表。

DROP TABLE pokes;

2、對，Hadoop 、Spark 、Hive 的啟動和機器營運都跟一個普通的 Java 應用和資料庫沒什麼區別。

比如啟動hdfs

bash ./start-dfs.sh

比如啟動yarn

bash ./start-yarn.sh

比如啟動hive

bash ./hive

完事了，有啥神秘的？？？？不就是配一堆所有系統都有的配置嗎？

3、對不起，沒有一門叫資料倉儲的技術。

資料倉儲是一個集結了某個範圍內所有經過清洗的統一的資料存放區、分析的地點，並沒有一門叫資料倉儲的技術。

在實戰中，我們一般會使用 Hive 來當資料倉儲的載體，在沒有大資料基礎架構的公司也會使用各種傳統 DB 來當資料倉儲的載體，所以不要再說什麼你要學習資料倉儲 ok ? 要學 Hive 就說要學 Hive，要學資料治理就說要學資料治理。

4、對，我們大資料就是死寫SQL的，但腦迴路跟你們不一樣

你們寫 SQL 優先想功能，我們寫SQL優先想這他媽能不能跑出來。

你們寫 SQL 可以一直調一直調，我們寫 SQL 要想好久才調一次，連機器是什麼跑的都要想清楚。

你們寫 SQL 壓根不管資料分布，我們寫 SQL 第一件事就是他媽不會資料扭曲吧？

你們寫 SQL 用都能直接寫，我們寫 SQL 前要寫一萬個 SQL 做資料清洗。

5、對，10倍，100倍，100萬倍的資料增長我們就需要一直改方案，改改改。

你的 SQL 在10倍量下能跑，在100萬倍下，你可能要付出非常久非常久的思考和努力才能基本跑出來，比如一個簡單的去重統計。

你的SQL count(1) group by 一下就出來了。

我的如果寫得跟你一樣我估計這輩子都出不來結果了。

不解釋了，大資料計數系列瞭解一下。

大資料計數原理1+0=1這你都不會算(十)No.77

6、Spark 很快，但 Spark 也很慢

Spark是純記憶體計算，但Spark也是批次運算，其中存在的缺陷你們思考一下，對比一下 FLink 這類純流式計算。

7、即使你有100T資料，你也不是在做大資料。

第一資料存放區佔用空間大不代表就是大資料，第二即使你資料量級夠思維不對你也不是在做大資料。

8、大資料跟機器學習是一家，壓根離不開

你可能永遠也不會知道分而治之，統計學，機率論在這兩個學科的統一性和重要性。

9、對不起，你別以為大資料只有 Hadoop，大資料技術棧廣和深得你幾乎不可想象。

你以為你學完了，完全不可"棱"。

https://mp.weixin.qq.com/s/ynz-mLlyO052LxyhbyovAw

大資料從大量、快速變化、多種特徵、低價值資料中得到不可替代的價值，其挑戰和痛點不少，現在不少重複的資料處理工作要人來做，需要有工具自動化思維來變革。

大資料和你想的不一樣

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

大資料和你想的不一樣

聯繫我們

熱門內容

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support

大資料和你想的不一樣

聯繫我們

熱門內容

熱門主題

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support