當地時間今日,HTTP://www.aliyun.com/zixun/aggregation/1560.html">Facebook在加州總部向幾位記者透露了一些關於「大資料」的統計數字, 諸如Facebook系統每天要處理25億條消息、500+ TB的資料、使用者點擊Like按鈕的次數達到27億次、上傳3億張照片、每半個小時掃描的資料大約為105TB。 另外Facebook還首次透露了新專案「Project Prism」的有關細節。
Facebook基礎設施技術部門副總裁Jay Parikh稱,這些資料對於Facebook來說尤為重要。 通過快速處理這些資料,Facebook能夠推出新產品,知曉使用者反應以及近乎即時地調整產品設計。
Facebook透露的另外一項統計數字顯示:在一個單獨的Hadoop磁片集群記憶體儲了超過100 PB的資料,Parikh表示這是全球最大的單一Hadoop系統。 不過他同時指出,雖然這種資料規模對於小企業來說很龐大,但是幾個月之後就沒有人會在乎你的資料庫記憶體儲了100PB的資料。 因為資料增長的速度非常之快,而且我們對資料變得愈加渴求,所以再過幾個月,100 PB的磁片集群就再也不是新聞了。
另外,Parikh還稱,這些資料不僅僅只對Facebook有説明,廣告商同時也是受益者。 Parikh解釋道:「通過追蹤網站上發佈的廣告對各個層面使用者(性別、年齡、興趣愛好)的影響,我們可以有針對性地加大廣告力度,使其效果更加明顯。 打個比方,如果廣告效應在加州相比其他地方更好,我們就會在加州投放更多的廣告,從而讓廣告商的效益達到最大化。
Facebook甚至都不需要作出任何改變就能看到這些資料帶來的影響。 只要透過歷史資料,Faceboo就可以建立一個模型,然後進行資料類比,就能看到廣告點選率(CTR)成倍增長。 與此同時,還有一個叫做Gatekeeper的系統在測試少數比例的使用者群的資料所帶來的變化。
接下來談論的是新專案「Project Prism」。 現在Facebook實際上是將其所有的使用者資料庫(一直在不斷變化增大)存儲在某個特定的資料中心,其他資料中心則用來存儲其他資料和冗餘數據。 不過隨著使用者資料庫不斷增大,一個資料中心將不足以存儲所有的資料,那麼就需要將整個使用者資料庫轉移到更大的資料中心去。 整個資料的轉移過程其實也是一種資源浪費。
Parikh說:「Project Prism」讓我們可以對這個「巨大倉庫」(指使用者資料庫)進行分別存儲但是依然不會影響整個資料檢視,也就是意味著這些資料可以分別託管在Facebook在加州、弗吉尼亞州、俄勒岡州、 北卡羅來納州甚至是瑞典等地的資料中心。
在內部,Facebook選擇不對資料進行分區處理或者給不同營業單位(如廣告部門和客戶支援服務部門)之間設置障礙。 產品開發人員可以跨部門查看資料,以評估他們作出的小調整是否會增加使用者在網站的停留時間、是否會引發使用者的投訴或者是否增加廣告的點擊次數。
這樣一來,作為使用者,想到Facebook的員工可以對自己的活動瞭若指掌,肯定會感到絲絲的不安。 但Facebook承諾使用者,將會採取多重保護措施以免使用者的資料被濫用。 所有的資料訪問記錄會被Facebook記錄下來,這樣就可以追蹤哪些員工查看了哪些資料。 並且Facebook還會對員工進行強化訓練,每個人都有各自管轄的資料領域,如果員工越權偷看了不該看的資料,那麼將會被炒魷魚。 Parikh嚴正聲明:「我們採取的是零容忍政策,絕對不姑息任何非法使用使用者資料的情況發生。 」
(責任編輯:蒙遺善)