以為資料工程師每天做的就是像 HTTP://hackertyper.net/ 這樣,然後創造了一個又一個偉大的產品嗎? 錯了! 紐約時報記者採訪了多位大資料工程師,他們表示自己 80% 的時間都在當「大資料苦工」,幹的都是非人類可以想像的枯燥繁瑣的工作——從海量的原始資料中提取有用資料,整理,轉換格式,調整為演算法可以理解的同樣格式的規整資料......
 
因此,這些資料工程師稱呼自己為「資料清潔工」、「資料搬運工」,「資料整形師」等等...... 知名健康追蹤手環公司 Jawbone 的資料科學副總裁 Monica Rogati 向記者透露,對於大部分人,甚至是普通的程式師來說,這種工作都是極端枯燥,完全接受不了的,但對於資料工程師來說,這都是他們每天都要做的事情。
 
華盛頓大學教授,同時也是一家大資料創業公司 Trifacta 創始人的 Jeffrey Heer 教授則表示,直接把演算法輸入到一堆原始資料中,然後指望結果能夠自己蹦出來,那簡直就是奇談...... 資料工程師需要把不同種類不同格式的資料(非常巨量)轉換成為演算法可以理解的格式整齊的資料,因此稱呼資料工程師為「資料清潔工」也不足為奇。
 
Iodine 是一家醫療方面創業公司。 該公司的員工透露,自己的產品能夠通過挖掘國家食藥管理局(FDA)、國家健康中心,以及醫藥公司提供的文字、圖像等內容提供的原始資料,來為使用者提供藥品的副作用相關的警示。 但事情遠沒有想像的那麼簡單。
 
光嗜睡一條就有「drowsiness」、「somnolence」和「sleepiness」三種說法,讓使用者去看這三個詞肯定都能理解,但別指望演算法能夠理解這三個詞代表同一個含義。
 
因此,所謂的「大資料」創業公司,最近在做的基本就是通過不同的管道、切入點,來完成一個任務:產生一個標準化的、簡單的資料處理軟體,讓資料工程師不那麼累,直接把所有的原始資料輸入進去,提取結果,簡單如此。 帕羅奧托一家名為 ClearStory Data 的創業公司就在做這樣的事情。
 
這家公司提供的產品是一個能夠將多種不同規格的原始資料整合到視覺化呈現的表格、圖片或地圖中。 該公司 CEO Shahani—Mulligan 表示,ClearStory 的產品能夠整合 6 到 8 種不同的資料格式,提供處的結果適合對於資料一竅不通的終端使用者使用。
 
你也可以手動來統計這些資料,我打賭你永遠也找不到足夠的資料工程師來做這些事......
 
(責任編輯:mengyishan)