大資料的人類面孔

來源:互聯網
上載者:User

所謂「大資料人類面孔」(The Human Face of Big Data,HFoBD),請不要望文生義,誤解為與視頻或圖像中的人臉識別有密切的關聯——雖然,「大資料人類面孔」專案的發起者裡克·斯莫蘭(Rick Smolan) 是一位著名的攝影家。

該專案是一個全球性的嘗試,旨在向人類介紹大資料對我們所有人在生活、學習、治理、工作和玩樂方式上的革命性作用。 該專案將通過簡單、人性化的故事和圖像,展示大資料已經對我們的世界帶來的改變,並預示它將在未來影響到我們的一些方式。 該專案還將大資料作為活動本身的基石:它將全球數以百萬計的人聚集到一起,充當一天的「人體感應器」,提供他們在2012年一個24小時的時間段內,有關他們的思想、行為、意見和經驗的資訊。 該專案有六個主要組成部分:人類的感應器元件(智慧手機應用程式)、行動中的大資料視覺記錄(印刷精裝書及電子書)、「指揮控制中心」(Mission Control)體驗、大資料追蹤器、資料視覺化工具組、媒體和社交媒體推廣......

「大資料人類面孔」智慧手機應用,最初隻有Andorid英文版,但已可見強烈的社交屬性

以「人類的感應器元件」為例,裡克·斯莫蘭及其團隊開發了一個「大資料人類面孔」的智慧手機應用(五種語言的iOS和Android版本免費下載)來「測量我們的世界」。 我在還只有Android下的英文版時安裝了這個應用,回答了N多諸如「你認為死後會發生什麼」、「從小養過/沒養過寵物」等問題。 在新加坡的「指揮控制中心」體驗環節,介紹了從上百萬參與調查者中分析的結果,譬如:

在「家庭」一節中,有「從小父母對我(偏嚴厲/寬容)」和「我比較(偏悲觀/樂觀)」等問題。 分析發現,從小父母嚴厲的人,長大後性格會比較悲觀。 呃...... 這個,怎麼說呢?這個專案的探索值得鼓勵,但具體到分析結果,似乎只是印證了我們的常識而已,並沒有體現出大資料最重要的特徵——Value。

「大資料人類面孔」Android平臺應用,顯示9月底有10萬多人參與調查,一周後隨著活動的推廣接近200萬,現在已超過300萬

作為「大資料人類面孔」的主贊助商,EMC公司高級副總裁Steve Leonard在提及該專案時雖然說到「作為人類活動的一部分, Youtube網站 24小時的視頻,每60秒都在上傳的視頻,你認為是多少呢?」 但是EMC公司旗下主打大資料分析的Greenplum事業部,在新加坡「指揮控制中心」展示的,主要是與Twitter合作的資料視覺化成果。 為達成這一目標,EMC在拉斯維加斯設了1000個節點的Greenplum集群,採集twitter資訊,加以分析。 用EMC的話說,資訊量大的就像消防的水喉(firehose)。

乍看起來,分析Twitter的文本內容,要比圖片或視頻中的「人臉識別」要容易多了。 不過,細想想,軟體要識別單詞如「Romney」、「Obama」容易,從人類語言的上下文中判斷出情感和態度,實在太難。

就像同行的一位翻譯朋友說的,「我愛奧巴馬」和「我愛死奧巴馬了」,其中的態度有何等區別,于軟體分析來說,絕對是個難題。 英文也好不到那裡去,所以在Greenplum展示的Twitter例子中,也是側重在挖掘選民發推與奧巴馬或羅姆尼的關聯度,誰被談論的更多,但是無法作為支援率高低的依據。

大選結束後,《時代》雜誌一篇分析奧巴馬競選團隊在本屆大選中所使用的全新資料分析戰略的文章,為大資料的熱潮再度加溫。 08年玩轉社交,12年運用大資料,奧巴馬的兩次競選完美的詮釋了「與時俱進」,簡直是潮爆了。 有人說,這一次,玩轉社交是奧巴馬獲取民意的前臺表現;而在後臺,是大資料支撐著奧巴馬各種競選策略的出臺,決定他應該到哪些社交平臺上去亮相。 不過,從這篇文章裡,我們很難看到大資料方法與社交網路上各種內容的深度挖掘,主要戲份似乎仍屬於電話、電子郵件等相對「傳統」的手段。

對Twitter上資料的這個統計倒是與大選後公佈的相關資訊比較吻合

也許有人會問,講大資料的話題,為何抓住社交網路不放?這是因為,社交網路源源不斷產生的各種文本、圖片、視頻資訊,符合大資料的Volume和Variety(多樣化)定義,足夠Complexity(複雜), 也需要Velocity(快速地)處理,但正如前面所分析的,人直接生成(如Twitter與Facebook文本)或含有複雜人類活動(如照片、視頻)的資料,機器判斷起來很有難度,受現有技術手段的限制,目前所能產生的Value (價值),還相對有限。

相比之下,各種感應器搜集、記錄的簡單資訊(如位置資訊,非視頻、圖像),既符合大資料公認的三V一C定義,也相對便於處理分析,已經體現出巨大的價值,這方面早有Splunk的成功和各種使用者行為分析的嘗試可證明。

較之以往企業關鍵的交易資料,這些資料的來源更為廣泛(Volume)多樣(Variety),相對也更為複雜(Complexity),但仍然可以放在各種資料庫或資料倉儲中,更多的運用新興的技術手段快速(Velocity)處理 ,是傳統的交易系統難以覆蓋的。

換言之,大不大是次要的,「大資料」帶給我們的啟發,是需要注意傳統企業交易資料庫之外的,所有其他資料的價值——特別是很多感應器自動搜集的所謂「被動資料」。 或許有些類型的資料中,無意義的垃圾資訊較多,但要點是,每種類型的資料,都要考慮如何有效組織利用。

這些資料,當然也包括含義更為複雜的社交資料。 也許眼下還產生不了足夠的價值,但在大資料興起、群雄逐鹿之際,各大廠商都忙著搶佔地盤,在保證自家既有利益的同時,為將來的增長提前佈局。 今年的Oracle Open World有一頁演示資料,幾乎將大資料與社交資料劃了等號,相對Oracle核心的資料庫和資料倉儲,處於資料金字塔的底端。 而Steve Leonard的一段話也頗耐人尋味:

「想一想所有產生的資訊。 再想一想通常有100倍數量的資訊只是在傳輸中,沒有保存和保護,只是流經系統。 每一個真正保存下來的資訊,都是從幾百倍的資訊量中留存下來的。 因此,我們所有人,每天都在產生巨大的數位足跡,或者數位影子。 這是人作為個體,每天在幹的事。 」

你怎麼看?反正我感覺,EMC的意思是,社交資料現在不能充分利用沒關係,但一定要先保存下來,將來才有可能用得上...... 唔,這麼說也沒錯,對你和EMC,都有好處。 從這個角度出發,也可以部分解釋,為何公認大資料的價值在於分析,但存儲廠商卻是熱情最高的群體之一。

不管你是否接受大資料的概念,或者這個熱潮能持續多久,圍繞資料講故事的「另類」戰場已然開闢。 廠商們從各自的出發點來講故事,比拼的是誰能打動客戶的內心,故事才算講成功。 然後?你懂的......

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.