2013年11月22-23日,作為國內唯一專注于Hadoop技術與應用分享的大規模行業盛會,2013 Hadoop中國技術峰會(China Hadoop Summit 2013)于北京福朋喜來登集團酒店隆重舉行。 來自國內外各行業領域的近千名CIO、CTO、架構師、IT經理、諮詢顧問、工程師、Hadoop技術愛好者,以及從事Hadoop研究與推廣的IT廠商和技術專家將共襄盛舉。
大會現場來自聯通研究院移動互聯網產品開發事業部主任王志軍,為大家介紹了Hadoop和大資料在行業裡的典型應用。
▲聯通研究院移動互聯網產品開發事業部主任王志軍
王主任主要從四個方面介紹了大資料的應用:第一方面源起,第二、電信運營商有哪些大資料,第三、中國聯通建成的正在投入使用的大資料業務系統,第四、大資料應用的展望舉幾個簡單的例子。
一、源起
我們進入到移動互聯網的時代,幾乎每個人都有手機,現在在用手機的時候,更多的是個人的電腦,所做的工作除了做一些基本語音和短信的功能之外,絕大部分在手機上的工作是使用資料的流量,移動通訊從語音的時代跨越到資料的時代, 運營商有很大的機會,同時運營商遇到了很多流量消費爭議的問題。
目前流量消費爭議已經躍升成為使用者通訊服務投訴的首位。 首先的問題是資料流量消費遠不如語音消費清晰透明。 語音消費的時候撥打一個電話,對方是誰,打了多長時間,這個時間是可以感知到的。 運營商也可以語音通話的詳單,如果是發短信,發了多少條短信大體是心中有數的。
流量消費首先是計費單位是KB,流量消費有一定的不確定性。 剛才用手機刷了一下微博、用了一會兒微信,到底用了多少流量,他不知道到底如何進行計費。 所以說很多使用者基於這種瞭解,可能很多時候主觀認為自己根本沒有使用流量,或者是使用了比較小的流量,為什麼有的時候會產生比較高額的流量的花費,這時使用者運營商來告訴我,這個流量用到哪去了?上了什麼網址、 用了什麼應用產生了什麼流量,而不是簡單說這個月用了1G或者是700兆的流量,傳統的方式已經不滿足現在使用者的需要了。
現在3G客戶資料流量爭議占3G業務投訴是10%,現在整個比例是在逐漸的上升。 個別的省份已經達到了20%的比例。 目前中國聯通每月打到10010客服流量上的投訴是近萬起。 同時很多使用者也基於運營商無法提供上網記錄的詳單,提出了法律的訴訟。 例如某iphone合約計畫的使用者,他是晚上淩晨到四點睡覺期間發生了巨額的流量,智慧手機可能語音的應用、有很多自動更新的應用,這些應用並不是使用了才產生流量,這種情況下使用者難以理解。 運營商的計量設備無法提供了詳單就提出了訴訟。 運營商的計量設備就相當於家裡的水錶,現在是區分不出來做飯、沖馬桶、洗衣服用了多少水。 如果是給使用者提供詳單,我們就需要做準確的計量設備做流量的區分。
原來運營商如何提供詳單的,主要是產生于網頁設備,GGSN,之前產生話單的方式流量累計到一定的限度,或者是達到一定的時長,或者是現在已經把網路關閉掉了,這時候才是產生流量的話單,這主要是運營商做計費用的, 不是給使用者來去說明情況的。 裡面包含的資訊可能有手機號碼、上頁流量是多少,下頁流量是多少,或有話單的持續時長,但是不包含網址的資訊和訪問記錄的資訊。
這種情況下,中國聯通的移動業務,此前有個客服部門的統計資料,每萬元應收收入中因無法提供上網記錄詳單的資料,造成的投訴和退費賠付是60塊錢。 GGSN不光是中國聯通在用,來自愛立信、華為、中興、諾基亞都在使用,這種成熟的設備,出現偏差的概率是很小了,絕大部分的賠付是運營商說不清楚,使用者有投訴,為了避免爭議擴大化,運營商是採用了賠付與和解的方式來處理。
由此可見提供使用者上網記錄詳單,成為了互聯網透明健康環境的關鍵的因素,這是運營商希望能夠做到的事情。
上網記錄是典型的大資料
例如,每個使用者,可能每月的通話記錄是幾百、幾千條,上網的記錄絕對不是這個數量級,可能是幾萬,用的量大可能是幾十萬條上網資料。 例如用手機訪問新浪網的首頁大致是產生20多條記錄,包括手機發起,DS的查詢,包括網頁中每個元素的下載,其實對網路來說都是獨立的請求這樣都會產生一條記錄。 如果用IPAD,新浪網的首頁會產生40條記錄,如果看了IPAD裡的新聞,過來會產生180條記錄。
例如說訪問淘寶的觸摸平板也會產生6條記錄,此外還有大量後臺推送的消息,相當於是蘋果的手機有很多通知的服務,例如說微信,很多的通知的服務業在悄悄的進行。
經過統計,中國聯通使用者上網記錄每個月是超過了兩萬億條,並且還在增長。 資料量是全國目前運營商所有類型的計費話單的30倍以上,包括語音詳單、短信詳單、採信詳單以及包括此前運營商給的流量記錄詳單,所有的資料量的30倍以上。
移動互聯網是快速的發展期,大約每8個月流量會翻一番,今年年底4G的牌照會發放,在LTE的時代,使用者的流量的消費會越來越大,現在是兩萬億,明年這個時候是五萬億條,之後也許是八萬億條,資料很巨大。
上網資料是個典型的大資料
採用什麼方式進行存儲和檢索呢是個大問題,此前運營商採用的架構方式是IUE的架構,用IBM小型機,用商用的關聯式資料庫,用高可靠性的EMC的存儲,構建無論是計費系統還是帳戶系統,很多的系統都是這樣方式構建的這個很昂貴, 但是它解決不了我們的問題。 存儲這麼大規模量的資料,以後超越了可管理容量的上線。 在做查詢的時候,關聯式資料庫對大規模操作的時候性能是嚴重下降的。
資料量達到500G延時可能是三千秒,意味著兩萬億條記錄的資料,分期、分表存下來,達到500G使用者有個查詢的請求意味著一個小時才能給使用者回應,即使做過優化查詢的速度也是半個小時以上,審核公司也做過實驗, 經常一個查詢是幾個小時才能查詢到使用者的詳單。
我們面臨的問題是資料快速的寫入,每月有兩萬億條記錄,每天有超過七百億條記錄,這麼大的資料量如何快速的存儲下來,那面記錄在源源不斷的生成,我們必須保持足夠的速度記錄下來,第二我們的資料如何快速檢索提供給使用者, 在什麼時候上了什麼網址用了多少流量。 上網記錄的資料本身是個高價值的資料,它是目前為止可能是使用者在移動互聯網行為上的一個最基礎、最原始的資料,這個資料如何進行高效的分析和挖掘。 這麼大的資料量,如何來進行低成本的存儲,都是當時面臨的問題。
Hadoop可以説明我們解決這些問題
Hadoop採用開源的方式,構架了普通的PC伺服器之上,拋棄了高端的存儲,也可以保證高可靠性,適合資料快速的寫入,以及有快速檢索的方式,這樣相當於有十億的業務需求解決不了問題,Hadoop幫我們解決了, 這是我們跟Hadoop脫離了實驗室的概念,是真正的商用系統上第一次親密接觸。