BAT的互聯網大資料應用有何不同?

來源:互聯網
上載者:User

本文轉載于公眾號「傅志華」,作者曾為騰訊社交網路事業群資料中心總監以及騰訊公司資料協會會長。 在騰訊前,曾就職于艾瑞市場諮詢、易觀國際、中國互聯網協會,並任DCCI互聯網資料中心副總裁。

互聯網行業在大資料的積累和應用以百度、騰訊和阿裡巴巴最為值得關注。 百度、騰訊和阿裡巴巴在大資料的應用上雖然有共同的地方,但由於各自的資料來源和商業模式的不同,其大資料應用也有不同的特色。 本文將分析他們擁有的資料資產和應用,以方便大家瞭解大型互聯網企業的大資料現狀和未來策略。

百度、阿裡巴巴和騰訊的資料資產

從資料類型看,騰訊資料最為全面,這與其互聯網業務全面相關,其最為突出的是社交資料和遊戲資料,其中:社交資料最為核心的是關係鏈資料、使用者間的互動資料、使用者產生的文字、圖片和視頻內容;遊戲資料主要包括大型網游資料、 網頁遊戲資料和手機遊戲資料,遊戲資料中最為核心的是遊戲的活躍行為資料和付費行為資料,騰訊的資料最大的特點是基於社交的各種使用者行為和娛樂資料。 阿裡最為突出的是電商資料,尤其是使用者在淘寶和天貓上的商品流覽、搜索、點擊、收藏和購買等資料,其資料最大特點是從流覽到支付形成的使用者漏斗式轉化資料。 百度的資料以使用者搜索的關鍵字、爬蟲抓取的網頁、圖片和視頻資料為主,百度的資料特點是通過搜索關鍵字更直接反映使用者興趣和需求,百度的資料以非結構化資料更多。

百度、阿裡巴巴和騰訊的資料應用場景

百度、阿裡巴巴和騰訊的資料應用場景都有共同的體系,該體系一共分為七層,代表了企業不同層面的資料價值應用場景,形成了企業運營的資料價值金字塔:

(1)資料基礎平台層。 金字塔的最底層也是整個金字塔的基礎層,如果基礎層搭建不好,上面的應用層也很難在企業運營中發揮效果,這一層的技術目標是實現資料的有效存儲、計算和品質管制;業務目標是把企業的所有使用者(客戶)資料用唯一的ID串起來, 包括使用者(客戶)的畫像(如性別、年齡等)、行為以及興趣愛好等,以達到全面的瞭解使用者(客戶)的目的;

(2)業務運營監控層。 這一層首要的是搭建業務運營的關鍵資料體系,在此基礎上通過智慧化模型開發出來的資料產品,監控關鍵資料的異動,通過各種分析模型等可以快速定位資料異動的原因,輔助運營決策;

(3)使用者/客戶體驗優化層。 這一層主要是通過資料來監控和優化使用者/客戶的體驗問題。 這裡面既運用了結構化的資料來監控,也運用非結構化的資料(如文本)來監控體驗的問題。 前者更多的是應用各種使用者(客戶)體驗監測的模型或者工具來實現,後者更多的是通過監測微博、論壇和企業內部的客戶回函系統的文本來發現負面的口碑,以及時的優化產品或服務;1

(4)精細化運營和行銷層。 這一層主要通過資料驅動業務精細化運營和行銷。 主要可以分為四方面:第一,構建基於使用者的資料提取和運營工具,以方便運營和行銷人員通過人群定向把客戶提取出來,從而對客戶進行行銷或運營活動;第二方面,通過資料採礦的手段提升客戶對活動的回應;第三, 通過資料採礦的手段進行客戶生命週期管理;第四,主要是用個人化推薦演算法基於使用者不同的興趣和需求推薦不同的商品或者產品,以實現推廣資源效率和效果最大化,如淘寶商品的個人化推薦;

(5)資料對外服務和市場傳播層面。 資料對外服務一般為服務該互聯網企業的客戶或使用者,如百度通過提供百度輿情、百度代言人、百度指數等服務其廣告主客戶;淘寶通過資料魔方、淘寶情報和在雲端等產品服務其客戶;騰訊通過騰訊分析和騰訊雲分析等服務其開放商客戶。 在市場傳播層面,主要通過有趣的資料資訊圖譜和資料視覺化產品來實現(如淘寶指數、百度指數、百度春節遷徙地圖)。

(6)經營分析層面。 主要通過分析師對大資料進行統計,形成經驗分析週報、月報和季度報告等,對使用者經營情況和收入完成等情況進行分析,發現問題,優化經營策略。

(7)戰略分析層面。 這方面既要結合內部的大資料形成決策層的資料檢視,也要結合外部資料尤其是各種競爭情報監控資料、國外趨勢研究資料來輔助決策層進行戰略分析。

雖然百度、阿裡巴巴和騰訊在企業運營的資料價值的應用體系上有共同的特點,但由於企業的商業模式以及資料資產不同,他們在整體的大資料發展策略也有顯著的不同。

百度大資料策略

百度大資料最重要的是來源是通過爬蟲搜集的100多個國家的近萬億網頁數據,資料量是在EB級的規模。 百度的資料非常多樣化,其收集的資料既有為非結構化的或者半結構化的資料,包括網頁數據、視頻和圖片等資料,也有結構化的資料,如使用者的點擊行為資料,廣告客戶的付費行為資料等。

百度大資料主要服務三類人群:一類是互聯網線民,通過大資料和自然語言處理技術讓線民的搜索更加準確;第二類是廣告主,通過大資料讓廣告主的廣告和搜索關鍵字的匹配度更高,或者和線民正在看的網頁內容匹配度更高;第三類是, 也是在重點推進的百度大資料引擎,重點是服務傳統行業擁有一定規模資料的企業。

百度大資料引擎代表了互聯網企業資料服務能力開放和合作的趨勢,百度大資料引擎由以下三方面構成:

開放雲:百度的大規模分散式運算和超大規模存儲雲,開放雲大資料開放的是基礎設施和硬體能力。 過去的百度雲主要面向開發者,大資料引擎的開放雲則是面向有大資料存儲和處理需求的「大開發者」.據百度相關人員稱,百度開放雲還擁有CPU利用率高、彈性高、成本低等特點。 百度是全球首家大規模商用ARM伺服器的公司,而ARM架構的特徵是能耗小和存儲密度大,同時百度還是首家將GPU(圖形處理器)應用在機器學習領域的公司,實現了能耗節省的目的。

資料工廠:資料工廠為百度將海量資料組織起來的軟體能力,與資料庫軟體的作用類似,不同的是資料工廠是被用作處理TB級甚至更大的資料。 百度資料工廠支援超大規模異構資料查詢,支援SQL-like以及更複雜的查詢語句,支援各種查詢業務場景。 同時百度資料工廠還將承載對於TB級別大表的併發查詢和掃描,大查詢、低併發時每秒可達百GB.

百度大腦:百度大腦將百度此前在人工智慧方面的能力開放出來,主要是大規模機器學習能力和深度學習能力。 此前它們被應用在語音、圖像、文本識別,以及自然語言和語義理解方面,並通過百度Inside等平臺開放給了智慧硬體。 現在這些能力將被用來對大資料進行智慧化的分析、學習、處理、利用,並對外開放。

百度將基礎設施能力、軟體系統能力以及智慧演算法技術打包在一起,通過大資料引擎開放出來之後,擁有大資料的行業可以將自己的資料接入到這個引擎進行處理。 從架構來看,企業或組織也可以只選擇三件套中的一種來使用,例如資料存放在自己的雲,但要運用百度大腦的一些智慧演算法或者資料存放在百度雲,自己寫演算法。

百度大資料引擎的作用

我們可以從兩方面來具體看百度大資料引擎的作用:

(1)對於政府機構:如交通部門有車聯網、物聯網、路網監控、船聯網、碼頭車站監控等地方的大資料,如果這些資料與百度的搜索記錄、全網資料、LBS資料結合,在利用百度大資料引擎的大資料能力,則可以實現智慧路徑規劃和運力管理 ;衛生部門擁有流感法定報告資料、全國流感樣病例哨點監測和病原學監測資料,如果和百度的搜索記錄及全網資料結合,便可進行流感預測、疫苗接種指導。

(2)對於企業:很多企業也擁有海量大資料,不過很多企業的大資料處理和挖掘能力比較弱,如果應用百度大資料引擎,則可以對海量資料進行可靠低成本的存儲,進行智慧化的由淺入深的價值挖掘。 如在2014年4月的百度技術開放日上,中國平安便介紹了如何利用百度的大資料能力加強消費者理解和預測,細分客戶群制定個人化產品和行銷方案。

阿裡巴巴大資料策略

阿裡巴巴大資料整體發展方向是以啟動生產力為目的的DT(data technology,資料技術驅動)資料時代發展。 阿裡巴巴大資料未來將由「基於雲計算的資料開放+大資料工具化應用」組成:

(1)基於雲計算的資料開放。 雲計算使中小企業可以在阿裡雲上獲得資料存儲、資料處理服務,也可以構建自己的資料應用。 雲計算是資料開放的基礎,雲計算可以為全球的資料開發者提供資料工作平臺,阿裡分散式的存儲平臺和在這個平臺上的演算法工具,可以更好的為數據開發者所用;同時,阿裡巴巴還需要做好資料的脫敏,把資料的商業定義,每個標籤打得足夠清晰, 能夠讓全球的資料開發者在阿裡巴巴平臺展開資料思維,讓資料為政府所用、消費者所用以及行業所用。 阿裡的大資料開放之後,線上線下的資料能夠串聯起來,所有人都是資料提供方,也是資料的消費者。

(2)在大資料應用上,馬雲已經在整個資料應用上確定了兩個方針:

第一個方針:從IT到DT(資料技術),DT就是點燃整個資料和激發整個資料的力量,被管理所用,被社會所用,被銷售所用,為製造業所用,為消費者信用所用。 前文已經分析道,阿裡巴巴的資料資產是以電商為主,其中,淘寶和天貓每天會產生豐富多樣的資料,阿裡巴巴已經沉澱了包括交易、金融、生活服務等多種類型的資料。 這些資料能夠説明阿裡巴巴進行資料化運營(如下圖)。

另外一個其最為重要的應用是金融領域——小微金融。 在小微金融企業融資領域。 由於銀行無法掌握小微企業真實的經營資料,不僅導致很多企業無法拿到貸款,還因為資料類型的不足導致整個判斷流程過長,阿裡已經通過其電商資料中的交易、信用、SNS等多種資料來決定是否可以發放貸款以及放貸的額度。

第二個方針:讓阿裡巴巴的資料、讓阿裡巴巴的工具能夠成為中國商業的基礎設施。 阿裡巴巴已經開始在轉型,阿裡將由自己直接面對消費者變成支援網商面對消費者,阿裡會根據其已有的運營和資料經驗,開發更多的工具,説明網商成長,讓網商們更懂得用最好的工具、服務去服務好消費者。 正如馬雲所言「我相信沒有一個網商不希望擁有自己的客戶,沒有一個網商不希望知道客戶對自己的體驗到底好還是壞,如何持久的擁有這些客戶,我們覺得一個國家的經濟,應該讓給企業家群體去做,我們覺得淘寶網商未來的經濟, 是應該留給網商們去決定,而不是我們去做決定」.

騰訊大資料策略

騰訊的大資料目前更多的是為騰訊企業內部運營服務,相對於阿裡和百度,資料開放程度並不高。 因此,對於騰訊我們主要重點介紹騰訊大資料在服務企業內部的應用場景和服務。

騰訊90%以上的資料已經實現集中化管理,資料集中在資料平臺部,有超過100多個產品的資料已經集中管理起來,而且是集中存儲在騰訊自研資料倉儲(TDW)。 騰訊大資料從資料應用的不同環節可以分為四個層面,包括資料分析、資料採礦、資料管理和資料視覺化:

(1)資料分析層有四個產品:自助分析、使用者畫像、即時多維度分析和異動智慧定位工具。 自助分析可以説明非技術人員通過簡單的條件配置實現資料的統計和展示功能;使用者畫像則是對某一群使用者或者某一業務的使用者實現自動化的人群畫像;即時多維度分析工具則是可以對某一指標可以實現即時的多個維度的切分, 方便分析人員從不同角度對某一指標進行多維度分析;異動智慧定位工具則實現資料異動問題的智慧化定位。

(2)資料採礦層面的產品應用有:精准廣告系統、使用者個人化推薦引擎和客戶生命週期管理。 精准廣告系統如廣點通,是基於騰訊大社交平臺的海量資料為基礎,通過精准推薦演算法,以智慧定向推廣位導向實現廣告精准投放;使用者個人化推薦引擎根據每位使用者的興趣和喜好,通過個人化推薦演算法(協同過濾、基於內容推薦、圖演算法、 貝葉斯等),實現產品的個人化推薦需求;客戶生命週期管理系統,則是基於大資料,根據使用者/客戶的所處的不同生命週期進行資料採礦,建立預測、預警和使用者特徵模型,以根據使用者/客戶所處的不同生命週期特點進行精細化運營和行銷。

(3)在資料管理層面則有:TDW(騰訊資料倉儲)、TDBank(資料銀行)、中繼資料管理平臺和任務調度系統和資料監控。 這一層面主要是實現資料的高效集中存儲、資料的業務指標定義管理、資料品質管理、計算任務的及時調度和計算以及資料問題的監控和告警。

(4)在資料視覺化層面有:自助報表工具、騰訊羅盤、騰訊分析和騰訊雲分析等工具。 自助報表工具可以自助化的實現結構相對簡單和邏輯相對簡單的報表。 騰訊羅盤分為內部版和外部版,內部版則是服務于騰訊內部使用者(產品經理、運營人員和技術人員等)的高效報表工具,外部版則是服務于騰訊合作夥伴如開發商的報表工具。 騰訊分析是網站分析工具,説明網站主進行網站的全方位分析。 騰訊雲分析則是説明應用開發商決策和運營優化的分析工具。

總的來看,百度、阿裡巴巴和騰訊三大互聯網企業都擁有大資料,三大互聯網巨頭的資料都用來優化自己業務的運營效果,從這個層面看,其資料價值應用場景比較類似。 但由於其業務和商業模式的不同決定了三者資料資產的不同,也決定了三者未來大資料策略的不同,尤其是基於大資料的開放和合作角度看,百度和阿裡巴巴相對更加開放。 對於重視大資料開放和合作的互聯網企業,他們最為期待的是借著大資料開放的策略,與更多的傳統行業交換更多的資料,從而更好的豐富其線上下資料,形成線上和線下資料的協同,從中拓展新的商業模式,如智慧硬體和大資料健康。

(責任編輯:lvguang)

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.