資料生意背後的雲計算

來源:互聯網
上載者:User
關鍵字 雲計算

作為互聯網金融領域的先行者,成立于2009年底的阿裡小貸發展初衷即是為淘寶和天貓上的賣家提供小額貸款業務,實現「讓天下沒有難做的生 意」的目標。 伴隨產品形態的豐富,服務物件的擴展,小貸業務增長迅速,平均每年增長速度在四到五倍。 經歷了近5年的發展,已有超過36萬人從阿裡小貸借 款,最小貸款額為1元。

與傳統銀行不同的是,阿裡小貸重塑了一套信用評價體系和信用概念,其小額貸款模式不需要抵押物,是純信用貸款。 信用從何而來? 來源於貸款者線上經營 信用資料、財務資料等,阿裡小貸對貸款者在互聯網上積累的海量資料進行分析予以授信。 資料成為阿裡小貸業務模式的基礎,也是核心所在。 究其根本,這是一筆 資料生意。

這筆資料生意,從第一天起,就根植于阿裡雲計算飛天平臺之上。

資料驅動增長,掘金阿裡資料

「3分鐘申請、1秒放款、0人工干預」,這是阿裡小貸獨有的一套高效工作模式,這樣的高效有賴於其背後獨特的業務模式,它將是否放貸、貸款額度和風 險評估等傳統銀行最為看重的業務環節完全交給了大資料處理平臺。 阿裡小貸資料倉儲的總共資料量十多PB。 每天處理上PB的資料量,包括店鋪等級、收藏、評 價等幾百億個資訊項,運算上百個資料模型,甚至需要測評使用者對假設情景的掩飾和撒謊程度。 最終使用者能否申請貸款、能貸到多少錢,完全依靠的是大資料平臺為 其計算出來的信用值。 這些無疑對大資料處理平臺的可靠性、安全性以及計算的準確性提出了極高要求,算錯一筆可能就會造成比較大的資金損失。

為了確保資料計算的準確性,阿裡小貸要從各個層面去挖掘申請貸款的賣家或者消費者的資訊,這個過程幾乎會用到整個阿裡集團包括淘寶、天貓、B2B和 1688等多個營業單位的資料,以及集團外部的社會征信資料。 這也使得阿裡小貸聚集了多個專案的技術骨幹。 其中,負責阿裡小貸資料倉儲的基礎模型和基礎平 台建設的架構師陳鵬宇和負責早期運維工作的資深經理張國保就是專案中重要的技術負責人。 近日,他們深入分享了阿裡小貸技術演進歷程。

據他們介紹,小貸業務目前每天從外部同步過來的資料量上百TB。 資料同步過來之後要經過小貸資料倉儲的三層加工,加工結果以指標(輸出模型要用到的 離線變數)的形式傳遞到阿裡集團的通用決策系統AGDS。 通用決策系統能夠支援上萬種資料倉儲提供的離線變數,包括買家、賣家及店鋪交易等所反映出的眾多 資料。 此外,它還會從其他系統獲取一些即時資訊,如賣家當前的交易情況、具體的處罰情況等,並結合這些即時資料和資料倉儲的離線變數動態計算賣家的風險程 度和授信模型。 因此,通用決策模型是小貸真正的業務引擎,其上大約有幾千條規則,可以理解成一條有幾千變數的公式,能算出賣家的最終授信模型。 在放貸系統 申請時,這個引擎就能告知它是否可以放貸、大約可以放多少錢等。 這便是小貸依據資料計算做業務決策的整個過程,如圖1所示。

此外,阿裡小貸的業務特點決定它對安全性和即時性也有很高要求。 阿裡小貸使用了多方資料,包括集團內部的資料以及其他合作夥伴提供的資料。 這些資料 都高度敏感,阿裡小貸作為使用方有義務確保資料安全,因此對平臺的安全性有較高要求而且發放貸款之後,要做好貸後監控。 小貸通常會根據貸款人的網上行為數 據,對其信用風險進行評估。 這種評估做得越及時,就越有可能在出現異常時提前發出預警、挽回損失。 而準確性、安全性和即時性等阿裡小貸的核心業務特性都得 到飛天平臺的有力支援。

根植飛天平臺,業務迅猛增長

由於阿裡小貸的業務與資料相生相依,伴隨資料來源的廣泛增長,資料庫會越來越龐大,任何傳統資料平臺都沒有能力支撐這種業務模式,同時,前文提到的 阿裡小貸對準確性和安全性的嚴苛要求,當時業界並沒有成熟的解決方案, 結合雲平臺在存儲和計算方面可以提供的強擴展能力,阿裡小貸成為「飛天」平臺的第一 批使用者,並見證了飛天平臺的每一步成長(如圖2所示)。 反過來看,也正是「飛天」這樣強大的雲平臺,才能支援小貸平均每年四到五倍這樣近乎野蠻的業務增長 速度。 2010年4月10日小貸業務第一款基於「飛天」的貸款產品——淘寶訂單貸款發佈,只面向杭州地區提供服務。 那時的飛天集群只有30台伺服器,小貸 業務用了兩個集群,資料處理引擎是SQL Engine 0.2。 兩個集群同時運行相同的業務,計算出結果後,需要人工將計算結果備份到另一個集群。 同年9月,阿裡小貸決定將業務開放到全國,然而在一切準備就緒 時,發現當時的集群規模無法支撐那麼大的計算量。 這時,飛天團隊做了一件當時看起來很了不起的事,將集群規模從30台擴展到100台,SQL Engine 0.2升級成0.8版本,保障了阿裡小貸在2010年11月順利將業務擴展到全國。

2010年底,阿裡小貸的貸款模型由原來的兩個(授信和貸後預警)發展成十個。 大家逐漸發現,要想支援這麼多模型不能再採用煙囪式的方法,因為拿到 資料後要走很長的加工鏈路,才能得出要用的指標。 這時,需要有一個底層的公用資料庫,於是大家開始動手建資料集市。 此時,又遇到了跟當初擴展全國業務一樣 的問題,集群處理能力再次受到挑戰。 飛天平臺再一次做版本升級,將資料處理引擎從SQL Engine 0.8升級成DataEngine 0.2,Data Engine 0.2有兩項重大突破:1. 存儲壓縮,壓縮比可達到2~5倍;2. 計算性能大幅提升。 最終,集群規模瓶頸被成功突破,飛天為阿裡小貸性能提升提供了足夠的存儲和計算能力。

隨著業務的發展,資料採礦專案對阿裡歷史資料的需求越來越大,有些專案甚至需要從2003年淘寶成立以來賣家的所有資料中去挖掘資訊,這便對資料跨 度和品質提出了很高的要求。 於是,阿裡小貸開始構建大型資料倉儲,但這無疑給飛天提出了更大挑戰,尤其是在穩定性方面一定要有所保證。 ODPS的研發開 始,將Data Engine與運行于雲梯1上能支援1500台伺服器的莫邪合併,將莫邪作為ODPS的資料處理引擎。 同期,飛天將集群伺服器規模擴展到千級別。 這時對阿 裡小貸來說,等於ODPS將飛天平臺包在了底層,主要由ODPS來對阿裡小貸的業務提供支援。

2012年初,集團開始將資料魔方、淘寶指數、Tcif等重要業務從Hadoop集群遷移到ODPS集群上,從一定程度上解決了一直困擾阿裡小貸的 資料共用問題。 此前,阿裡小貸共用集團資料時大部分要到Hadoop集群去取,資料同步、上游資料複製、下游時間銜接等都有可能出問題,很難保障資料產出 的品質和穩定性。

業務遷移完成之後,開始在ODPS集群上建一個集團的資料中心,也就是ODS層,專門匯總阿裡各個營業單位的資料,然後在其上提供一個基礎的統一數 據服務。 總的來看,對比Hadoop,ODPS優勢很明顯:1. ODPS有一整套的資料隔離、授權模式特性,在資料的邏輯隔離做得很好,同時提供了多種版權管理策略:ACL、POLICY、LABE等,最厲害的是,在 資料嚴格隔離的情況下支援混合計算——Protected模式;2. ODPS在資料計算和資料管理等方面的實用性功能更加豐富,在很多方面可媲美傳統的RDBMS,例如一些複雜的開窗函數查詢等;3. ODPS產品易用性較 好,上手容易;4. 在5K之後,ODPS集群的可擴充性理論上具備無限擴展的能力;5. ODPS支援多租戶模型,在資料、資源的分配和隔離等方面可以較為靈活地控制;6. 性能和穩定性方面,雖然兩者相差不大,不同場景下各有優劣,但ODPS顯然走得更遠。

5K出現,平臺和技術走在業務前面

集團的ODPS資料中心和阿裡小貸的業務系統放在同一個集群中,必然造成隨著業務增長爭搶資源的現實。 但如果將資料分開存儲在兩個集群的話,又與之前將資料從Hadoop集群拷到

ODPS集群來計算並無二致。 這時,擴展飛天集群規模成為必然之選。 也是在這個時間,「飛天」已經邁向5K時代,平臺和技術的發展走在了業務需求的前面。

提到飛天5K,除單集群規模由1000多台升級到5000台之外,其實還有另一個更重要層次的意義不能忽視,這5000台並不是一個天花 板,ODPS集群之間有很強的跨集群複製能力,確保了集群之間很好的連通性、資料有更好的共用性。 現在,ODPS資料中心已搬到另一個飛天5K集群上,但 得益于5K的跨集群複製能力,使得ODS層可以為多方提供資料而無需顯式拷貝,使用者感覺不到集群的變化或資料傳輸延遲。

2014年7月8日,ODPS正式開放對外提供服務。 此前,ODPS一直是阿裡巴巴內部的秘密武器,第一個使用者就是阿裡小貸。 傳統的資料倉儲一般都 搭建在Oracle等關聯式資料庫上,而阿裡小貸搭建在飛天平臺上,所以必然會要求ODPS能提供很多關聯式資料庫的功能,例如,預存程序程式設計能力,以及 很多資料分佈的開放函數和資料分析函數等。 這在技術上非常有挑戰性,因為在ODPS這樣的分散式框架裡解決這些問題要比在關聯式資料庫中難很多。 ODPS 比較逼真地類比了傳統RDBMS的物理表和視圖概念,包括存儲分區都很像Oracle,能支援很多傳統資料的功能。

然而,在ODPS上構建一個大型資料倉儲的過程中,仍然有一些地方需要注意,這裡分享一個最為關鍵的點——資料管理細微性的劃分,即ODPS和 Project的劃分。 基本上可將ODPS理解成一個資料管理的基本單元,常見劃分細微性的方法有幾種:按照層次分成幾層,每層一個Project;或者整 個資料倉儲為一個Project;或者每一個主題資料為一個Project等。 這個細微性劃分對於後期的管理成本有非常大的影響。 但針對不同團隊的不同階段 會有不同的劃分方案,並沒有什麼絕對的劃分方案,一般會從幾個維度來思考:資料倉儲所面向的使用者範圍及資料業務要面向的人群,不僅是開發者,使用者也會在數 據倉庫上直接使用資料;團隊內部的協同方式, 如何決策和分工;資料安全方面的一些策略,例如資料倉儲的基礎層可能不開放,那麼它是如何對其他系統做輸出 的,不同的輸出策略也會影響資料管理細微性的劃分等。 一定要在構建資料倉儲之初,將資料管理細微性劃分好,因為除非來一次比較大的重構,基本上很難有回頭路。

借力雲,小企業與大企業同步起跑

從阿裡小貸這門資料生意的發展歷程不難看出,小貸業務與阿裡雲之間既有相互磨合,又有相互促進,從而成就了彼此業務的迅速發展。 而雲計算為小貸業務 帶來的則不僅僅是平臺的支撐、成本的降低,從某種意義上講,雲計算是這種以資料為核心的新型互聯網金融業務可以依託的天然平臺。

伴隨著底層技術的不斷完善與持續發展,更多中小企業可以在雲計算平臺上獲得資料存儲、資料處理服務,並從而構建豐富的資料應用,雲計算使得每一個中小企業具備和大企業同步起跑的底氣,支撐更多創新服務的湧現, 這是雲計算承載的重要意義所在。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.