在很多人的印象裡,職業社交網站LinkedIn是一家很另類而神秘的社交網站,但它的價值逐漸讓世人側目。 在日前舉辦的2013 Teradata大資料峰會上, LinkedIn商業分析部總監張溪夢(Simon Zhang)在接受IT專家網記者的專訪,介紹了LinkedIn如何通過對資料分析技術的利用創造企業的價值。
LinkedIn的目標,是聯結世界上所有的專業人士,讓他們能夠更有效率,更成功。 目前,LinkedIn在世界範圍內的使用者已增長到2億多,86%的財富100強企業正在使用LinkedIn的付費解決方案。 在LinkedIn上一季度的1.61億美元營收中,「人才解決方案」的貢獻超過了一半。
這樣的成績背後,是張溪夢以不足60人的商業分析團隊,通過集成資料架構、BI、資料採礦和分析,支援70%現有的4000名LinkedIn內部員工,涵蓋了研發、產品、市場、銷售和運營等五個主要商業職能部門, 包括公司的三大業務分支。
有人力資源專家甚至聲稱,LinkedIn Recruiter付費招聘服務(LinkedIn的旗艦產品, 「人才解決方案」業務的核心)是「一枚核彈」,將憑藉龐大的資料庫,在今後的招聘市場獲得無可企及的地位。
LinkedIn如何做到這一點? 張溪夢抽絲剝繭,深入介紹了LinkedIn的分析哲學及其背後的技術支撐。
LinkedIn Corp商業分析部總監張溪夢(Simon Zhang)
從金字塔到菱形的分析哲學
分析工作的任務,張溪夢認為是「謀斷」。 李世民痛失魏征那段「以銅為鏡」的名言不再贅述,在張溪夢看來,謀斷就在於根據過去和現在定制未來,物件當然就是資料。
LinkedIn的三種主要的資料類別,是使用者行為資料,使用者身份特徵資料,以及職業網路資料。 如果說2億使用者的資料已經不足以讓現在的存儲硬體和資料庫感到壓力,那麼相互關聯的職業網路資料,絕對是當之無愧的大資料量。
「兵在乎精,不在乎多」,「兵貴速,不貴久!」 古中華的兵家圭臬,是張溪夢的大資料智慧所在。 他提出了兩個準則,大資料要做小,做快,因為速度決定價值與成敗。
資料分析的傳統金字塔結構,從資料及資料品質管理,先生成商業智慧和報表,再進行專門的分析,以及深度分析,最後形成商業洞察,但張溪夢表示,正如偉大的畫家不會借他人之手描繪心中的美景,分析師不需要借助現成的報表來創造未來, 也就是說,在LinkedIn,商業智慧報表要放在分析層之上。
但改造之後的金字塔結構,仍然存在兩大問題,首先是功能層之間脫節,更可怕的是,底層佔用了90%的資源。 張溪夢的做法,對底層「動手術」,讓金字塔結構「進化」成菱形結構,當金字塔底座實現了小,整個分析流程的面積減少一半,資源的效率獲得100%的提高,而很大的資料變成很小的資料,處理速度也得到質的飛躍。
LinkedIn並沒有就此滿足,再次把菱形做為新的金字塔「進化」,如此反復,至到不能再「小」,進入第二階段的進化,進行球形的應用滾雪球的球形,會形成更大的價值環。
張溪夢對這套哲學的功效十分欣喜:「我剛開始加入LinkedIn,每天從早晨8:30工作到半夜兩三點,一年卻只不過出500個報告,支援不到200人;但現在,我的團隊每人每天就能説明別人10次。 」
然而,問題來了:今天沒有價值的資料,誰能保證在明天沒有價值呢? 資訊的不對稱造成的後果,很多企業都深有體會,因此,盡可能地搜集資料,是很多專家的忠告,這也是大資料之所以「大」的原因之一。
「情報永遠是不夠的。 」張溪夢回答說,資料量在增加,也意味著存儲和分析成本的增加,分析的速度的下降,隨之而來的,往往是價值(ROI)在下降。
為何選擇Teradata
LinkedIn的分析哲學得以貫徹實施,IT的力量當然功不可沒。 張溪夢表示,科技是LinkedIn拓展分析規模的基石。 在LinkedIn,Hadoop、Aster Data和Teradata是商業分析部賴以運作的三大平臺。
LinkedIn與Teradata的合作,其實是從Aster Data開始,後者現在已被Teradata收購。 張溪夢介紹,在LinkedIn的基於社交網路的分析模型中,基於傳統的關聯式資料庫進行分析,多級關係網絡的計算,一次就需要好幾天甚至一個星期才能完成,後來採用了Aster Data,分析效率獲得極大的提升, 目前的分析時間已經縮短至幾個小時。
在儘管LinkedIn在開源技術上花費了很多精力,並自主研發出了多種開源技術,但在資料分析層面,張溪夢更鍾情于採用穩定的商務軟體。 他表示,開源技術更新快、功能多,也意味著不穩定;閉源反應慢,但同時也是穩定的代名詞。
張溪夢說,LinkedIn不是一家資料庫公司,採用現有的成熟的技術更有利於公司的商業推進速度,而Teradata是最成熟的企業資料倉儲供應商,其解決方案的優越性已經得到市場的驗證。 相比之下,採用Hadoop平臺的LinkedIn,還需要在中間增加了一個安全層,以保護會員的隱私和利益。
張溪夢的理由,可以概括為專業,權威。 事實上,更深層次的是二者對專業的理解不謀而合。 張溪夢希望把大資料做小做快,Teradata大中華區總裁辛兒倫恰恰不斷地強調無須貪多,而是要學會捨棄資料,只分析有用的資料。 Teradata的資料分析方法是I(整合)、D(探索)、A(行動)。 Aster Data就是Teradata的資料探索平臺,其設計的理念,就是要讓不同層次需求的人都能進行各種分析,輕鬆探索大資料的價值,提供了SQL、MapReduce、統計、圖形、路徑、時間和地理查詢等工具, 正適合LinkedIn的需求。 Teradata平臺則主要用於支援BI。
忠告「准資料科學家」
在這個被稱為「大資料時代」的時代,一個叫做資料科學家(Data Scientist)的新職業被認為即將搶手,包括EMC、微軟、Teradata等公司都在談資料科學家,認為是大資料時代的資料分析的必然需要,甚至有評論稱, 資料科學家是二十一世紀「最性感」的職業。
而在LinkedIn的模式中,資料科學家的精准判斷尤為重要確認哪些是最有價值的資料,不是單靠軟體平臺就可以實現的。 張溪夢表示,最好的分析師要比PM更瞭解產品,要比Marketing更瞭解市場,要深刻理解軟硬體之間的關係......
毫不誇張地說,成為LinkedIn的分析師也是一種挑戰。 所以,張溪夢的「兵在乎精,不在乎多」的另一種含義,也是分析團隊的「精」。
那麼,要如何應對未來的挑戰進入這個「性感」的職業? 張溪夢的忠告是,不要因為Data Scientist是當前的熱門職業而選擇這個行當,你的長遠目標更重要。 他最強調的一點就是興趣,認為興趣會驅動你找到變得專業的方法。
翻開張溪夢的履歷,我們會發現一件有趣的事情:他曾經是一名神經外科醫生。 「我是一名稱職的醫生,但我更享受數位,更享受邏輯。 」張溪夢說。
作者:雷霆
(責任編輯:蒙遺善)