來源:互聯網
上載者:User
關鍵字
大資料
TalkingData
資料採礦
行業資料
使用者畫像
通過大資料技術實現企業運營效率的提升是我們當前的一個重要目標,但這項工作並不是每個企業都那麼容易上手。 在1月21日的「10億說 TalkingData移動互聯網產業指數資料包告發布會」上,多名業內專家及TalkingData高層為我們分享了釋放大資料價值現存的一些坑,以及我們可以怎麼解決。
所謂10億說,是指TalkingData的平臺現在已經覆蓋了10.6億的移動智慧設備,包括iOS、Android的系統平臺,包括智慧手機、平板、智慧電視等等不同的設備形態。
專家說:真正的分析還在嬰兒期
全國手機媒體委員會、中國手機移動互聯產業聯盟秘書長吳紅曉,中國工程院院士、中國移動互聯發展指數專家組首席科學家倪光南,以及北京大學新媒體研究院副院長劉德寰在發佈會上分享了他們對大資料的觀點, 從不同的角度指出了目前大資料應用面臨的許多挑戰。
吳紅曉:
目前很多單一的資料庫的量都已經很大,已經超過了幾個PB的規模,但是同時資料的規模越大,處理的難度也越來越大。 有兩方面的挑戰:
資料的來源問題。 在資料收集方面,因為要對網路和各個資料來源機構的資訊標上時間和空間的標誌,要去偽存真,而且還要與歷史上的資料對照,這樣才能驗證資料的可信度。 更重要的是,憑一家的資料很難形成具有足夠價值的資料池。 有效的資料採礦工具的問題。 資料處理涉及到的參數比較多,它的複雜程度並不僅限於資料樣本本身,還在於它的來源的多樣性,實體和空間之間的交互性,這些都是很難用傳統的統計辦法或挖掘辦法描述和審讀。 最終我們的資料採礦還要保證它的結果的視覺化呈現,結果越直觀,資料處理的價值也越便於使用。
倪光南:
剛開始提供互聯產業的資料,涉及到的作業系統、機型、品牌運營商、APP等六個方面,可能以後會加上地理位置,加上即時性等。 10億人的行為能夠做到即時監測,潛力很大,但也帶來很複雜的問題,包括資訊安全、個人隱私、法規完善等。 資料要做到資訊的互聯互通、共用共用,但出於商業利益考慮,很多單位不願意把資料拿出來,需要與有關部門進行協調,使大家更願意把共用資訊,既照顧到國家利益,也保障單位的利益。 還要有資料品質的提升和分析手段的改進。 例如從資料的關聯性發現的規律就能創造很多新的價值。
劉德寰:
整個中國雲計算和大資料研發過程當中有幾個很大的問題:
發佈的資料更多,用得越來越少,原因是這些資料有太多的公關性。 資料孤島。 雲基礎設施的重複建設。 像沙裡淘金,需要在國家戰略上,對整個雲存儲平臺進行重新規劃,因為只有有用的、有價值可采的礦才是我們要收集的礦。 資料分析能力。 現在資料採礦更多的是類似于ERP、CRM等資料的展示,但是真正的分析是非常弱的,應該處於嬰兒期狀態(例如,現在對於網站,包括功能變數名稱解析等,方法上還面臨很多不足)。 而且我們現在跟世界發達國家的水準相比,差距在拉大,並不是在縮小。
TalkingData說:大資料全面解析2014移動互聯網
長期以來鑽研的分散式的運算架構、海量的資料處理和資料採礦的演算法,TalkingData使用自研的一個移動大資料的統計分析平臺,將這10億部智慧終端機的資料作為資料藍本,從多個維度對移動互聯網使用者的資料進行對比分析, 給出整個行業觀察的結果。
TalkingData資料平臺部總監陶京琪在發佈會上詳細講解這份2014年TalkingData移動互聯網資料包告。 報告圍繞「移動互聯網行業概況」、「移動互聯網使用者行為」、「移動應用整體盤點」、「移動互聯網使用者線下消費習慣」等不同主題,多維度分析了2014年中國移動產業的整體發展狀況。 (如果您對這份報告感興趣,可通過訪問TalkingData官方網站免費下載)
報告顯示,移動互聯網已經度過了需求集中于通訊與社交方面的「萌芽期」和以購物與娛樂為代表的「初步發展期」,邁入到「高速發展期」,這一時期,出行、醫療、教育、餐飲等與生活密切相關的細分領域應用紛紛湧現, 多元化生活服務為使用者帶來極大便利,線上與線下聯動(O2O)成趨勢。 典型應用的不斷湧現,也讓O2O行業迎來使用者增長與資本市場融資雙重熱潮,移動端的消費閉環正逐漸形成。
對話Talking Data:技術、資料來源與中立是關鍵
在發佈會之後,TalkingData COO 徐懿、TalkingData產品副總裁閆輝、TalkingData售前總監戴民和TalkingData資料平臺部總監陶京琪一同接受了CSDN記者的採訪, 更深入地解析了TalkingData的大資料實踐經驗,如何破解前述專家提到的問題,以及TalkingData的技術能為企業和開發者帶來什麼。
TalkingData認為,大資料最重要的,是運用分析結果為整個企業運營服務。 然而,單個企業的資料,不足以反應整個行業的動態,我們更需要的通過對整個行業的資料的分析來獲得最優決策的依據——這與舍恩伯格「不是亂數據,而是全體資料」的思想相吻合。 也並不是所有全體資料都靠譜,TalkingData還強調,目前只有中立的協力廠商平臺才能保證資料分析結果的參考價值。 當然,實現整個行業資料的中立分析,其基礎還是要有一個可靠的大資料技術平臺,能夠容納收集整個行業的資料量及其多樣性,有資料互聯互通的統一介面,還要能保證分析的即時性、有效性。
問:如何理解中國大資料應用還處在起步階段?
答:很多企業沒有辦法把存儲的資料用到平常的銷售優化、服務優化上來,因為他們還不具備這樣的分析能力。 大資料使用裡面最關鍵的一點,就是怎麼樣把業務變成是大資料驅動的。 從這點上來講,無論是在傳統的行業裡,即使是在互聯網行業裡,大資料驅動業務這件事情都還在起步階段。
以手游為例,很多遊戲的運營還是靠具體負責人拍腦袋決做決策,而不是利用收集的大資料發現一些規律性的東西讓運營更加順暢——譬如有效預知和挽救可能會流失的使用者,保持遊戲的收入。 資料量並不一定要多大,但是後面流失的模型是基於很多遊戲,包括他自己的遊戲,也包括其他的遊戲,在很多遊戲裡面我們算出來一個模型,把這個模型用回到這個遊戲裡面,對遊戲運營做指導。
TalkingData針對于此的做法,首先是做一些行業標準的東西,很容易把大家孤立的資料全部打通,或者匯總在一個DMP資料管理平臺裡面,對於企業來講,先幫他建立第一方的資料,讓他把資料能夠管理起來,對使用者做一個畫像。 第二,他的資料有可能跟協力廠商的資料進行打通,他可以利用很多協力廠商的資料。
所以說,大資料的應用範圍可能會比我們原來簡單的理解我有一大堆資料怎麼去處理它,比這個更高級一點,更多的現在會產生在不同的領域跨界的一些資料的應用上面。
問:TalkingData的技術有什麼獨特的技術?
答:從資料的分析、挖掘角度來說,大家都是用OLAP模型,按照指標維度存起來,然後反復的切割、切片、抽取,這種技術模型大家基本上都是相似的。 我們也採用了如Hadoop、Hive、Storm、Spark等開源的技術。 但我們在大資料行業,在技術上還是小有貢獻的,因為我們把自己的計算引擎和推薦的演算法,還有一些挖掘演算法,以及我們的存儲模型,都有一些開源系統,我們內部有個代號叫派系統,這樣的系統也經常跟市場上做技術框架的系統做交流和切磋。 比如有一個系統開源的叫麒麟系統,都是做大資料運算的。 我們也不能自己說自己談得上領先,但是總是願意去分享自己在這塊的知識。
問:我們能為企業開發者提供哪些方便?
答:所有的生意都是要解決兩個問題:怎麼獲得客人,以及怎麼經營他們。 基於此,我們用全行業的大資料平臺説明企業找到客戶。 第二個方面,我們提供一整套基於大資料的從分析到運營的閉環產品,支援企業根據客戶的特點來經營客戶,來獲得更好的收益。 這主要包括:
提供所有的運營報表。 針對全行業行為的使用者畫像,説明企業找到最好的合作夥伴和潛在客戶。 提供直接的運營工具,讓企業把潛在客戶分離出來,並提供針對性的運營策略建議,實現更好的轉化。
問:很多大資料平臺也都提供了使用者畫像技術?
答:傳統上做使用者畫像大都有忽悠的嫌疑,比如使用者的性別、年齡段、所屬省市,參考意義不大。 我們的使用者畫像是更偏向于實際執行的興趣,針對移動產品,我們從喜歡用哪些App,可以分析出哪些使用者的興趣與我們的定位更加貼合。 知道使用者喜歡逛哪些商場、買哪些商品,和知道他生活在哪個省市的意義不可同日而語。
問:我們會提供本地部署的方案,還是通過純SaaS平臺收集和分析資料並回饋結果?
答:我們的客戶有兩類,一類如招商銀行這樣的大客戶,對私密性要求比較高,就要部署一個全維的第一方DMP平臺到銀行內部,所有的資料只能進不能出,公開的非商業性資料,則可以直接從我們官網獲得報告;對於第二類客戶, 資料可以直接上傳到我們的平臺上。
以招商銀行(掌上生活和手機銀行業務額)為例:
我們第一步是説明他們構建起移動資料的基礎設施,幫它在初期做運營的基礎資料的採集、清洗、存儲以及分析。 有了這些基礎資料之後,他們就可以產生以前沒有的洞察,説明指導他們優化產品,説明他們找到合適的管道。 第二步,就是幫他們構建資料管理平臺。 資料管理平臺的定義就是,説明客戶在大資料的背景下,面向行銷,幫他構建起整合各個管道的資料,並且能夠支撐到各個營業單位的一套系統和服務。 有了這套系統之後,客戶就可以基於他自己多管道的協力廠商資料的基礎上,能夠產生完整的使用者視圖,有些這些視圖之後他可以做分群,結合他的行銷系統,比如他的微信、短信話務中心、投放系統等等,之後我們還能説明他監測行銷效果, 形成大資料行銷的閉環,提升他整體行銷的ROI。 第三步,説明他去打通第一放DMP以及我們的協力廠商資料。 TalkingData是一個大的協力廠商的資料中心,我們基於自己積累的協力廠商資料,還有很多使用者在銀行第一方資料之外的使用者,平常線上上的行為資料、線下的行為資料,結合這些資料能夠説明客戶產生更深度的洞察,發現客戶更多的需求。
問:資料出來可能有的是可信的,有的是不可信的,資料最終呈現的結果會有誤差嗎?
答:首先從行業視角看,還是從運營分析的視角看,一些大型公司都推出了這樣的平臺,它也是説明開發者去做運營分析和運營工具,從單向的去分析這個市場來說,大家出的資料都是幫一個移動端的創業團隊去做他的業務分析, 這種資料的出入性當然不會特別大。 但是從全行業的視角去看這個事情,可能是不太一樣的。 比如百度要去發一個報告的話,它結合的不光是它從中立市場採集的資料,更多的是來源於百度的搜索、百度的地圖抓取的各種各樣的資料,所以它對中立資料的採用可能只是它的一小塊。 作為一個行業性的資料包告來說,它會不會更側重百度一些呢,有可能它自己不這麼認為,但是它的樣本本身都是偏自己的。 同樣,騰訊也是一樣的,他們在TOP50應用裡面占了很大的份額,他覺得他的使用者量已經普及到一個程度,本身他做出來一個他認為中立的報告,結果也是比較偏他的使用者群,就會有一定的偏差。 比如有一個客戶,也用了我們的統計分析的產品,只是分析他個人業務的,也用了百度的,也用了騰訊的,資料量會有多大差別嗎,當然不會,因為大家做的是一樣的活。
問:我們如何解決資料來源的問題?
答:TalkingData是行業中唯一一個中立的大資料平臺,我們本身提供SDK外掛程式這種服務,所以我們掌握了比較準確的一手資料,直接去採集和獲取。 採集當中,我們很在意開發者和最終使用者的感受,所以會跟大家協商更好的使用者授權合約,以及在不侵犯隱私的情況下,拿到一些大家會在意的資料,這是第一方面。 另外,我們會採用一些資料交換和合作的方式,獲取更多元的資料。 這些資料一樣是需要合規、合法,不侵犯任何合作方利益的情況下,可以去拿得到這樣的資料。 還有一方面的資料,我們會線上下做很多佈局,包括到店的資訊,去布Wi-Fi點,採集線下的資料,拿這樣的資料可以跟線上資料打通和做很多匹配。 總之會形成一個全行業遍佈的資料網,讓它更全面、更嚴重。
問:如何規避資料隱私的問題?
答:解決資料隱私是資料服務公司安身立命的基礎,資料的收集和使用一定要注意合法性的問題:
明確要求開發者在使用者協定中告訴被收集者,TalkingData會基於哪些原因收集哪些資料,保證使用者知情權。 對於與協力廠商的資料交互,也要審核對方的資料來源是否合法。 在TalkingData內部對採集什麼樣的資料、處理什麼樣的資料,以及這些資料在內部的管理流程,都有非常嚴格的控制。 如使用者的手機號、身份證號碼等,TalkingData認為此類資料是不可逾越的紅線。 TalkingData已經通過ISO2701的認證,公司存儲的資料都很好的被保護。 資料包告的處理。 TalkingData給的都是行業的資料,比如男性和女性整體的比例,但不會提到某一個人的詳細資料資訊。