【先鋒】思明軟體大資料技術平臺打造歷程和Impala實戰分享

來源:互聯網
上載者:User
關鍵字 雲計算 Impala 思明資料 雲先鋒

在採訪思明資料劉誠忠的過程中,他表示當下大資料領域企業級市場靠技術壟斷獲取高額利潤的玩法已經過時了,技術的成本會不斷降低,這是大勢所趨,這個市場的巨頭會出現在技術很好,但服務更好的公司裡。 而站在使用者的角度,使用者們首先關心的是如何讓資料發揮價值,然後才是這套解決方案依賴何種技術,是否能快速應用,是否能適應後面可能的擴展,相對技術來說第一點是更難的。

事實上今天的企業客戶,特別在大資料技術領域,更需要的是長期的合作夥伴。 他們不只需要購買技術密集的產品,還需要和大資料的技術專家一起研究如何讓資料發揮出價 值,利用技術公司的豐富經驗跟企業現有的業務進行碰撞,一起探討新的資料應用場景,這是客戶最需要的,也是思明資料最擅長的。 下一步才是考慮使用何種技術方案的 問題。 一個經驗豐富的大資料公司不只是處理大資料,應該能説明企業客戶發現資料、帶來資料、進而整合出合理的資料模型,然後再考慮展現,最後反映到企業的日常決策 中,形成運營-資料-決策的良性閉環。

思明資料走的是擁抱開源但堅持自主研發的路線,他們在提供產品的同時也提供解決方案。 為了和各大發行版相容,思明的大資料基礎平臺保持完全的標準化和開放性,在平臺方面主要是bug fix的跟蹤和patch跟蹤,解決各個元件的依賴問題,發佈穩定的,驗證可用的大資料平臺版本。 針對 思明軟體大資料技術平臺的具體打造歷程,我們採訪了思明軟體技術經理劉誠忠,以下是採訪實錄。


思明軟體技術經理 劉誠忠

思明資料的團隊、定位、優勢

CSDN:首先介紹下自己和思明資料,目前的技術團隊情況如何?

劉誠忠:我2008年畢業于北航電腦系,在VMware中國研發工作4年,做網路虛擬化和虛擬機器線上遷移優化的工作,接下來在國內領先的廣告技術公司秒針系統負責分散式系統的設計實現,目前在思明資料擔任研發經理, 負責大資料技術平臺方面的研發工作。 思明資料是新興的一家本土大資料技術公司,我們的核心技術團隊基本上都是電腦,數學和資訊學背景,90%以上都是清華、北大、北航、北郵、中科大、CMU這些海內外名校畢業,可以說是國內大資料技術人才密度最高的公司。

CSDN:目前企業級的大資料應用、實施和分析領域,國內外的市場態勢如何? 思明資料在其中的定位是怎麼樣的? 具備哪些獨特的優勢?

劉誠忠:傳統資料應用分析這塊,基本是IBM、HP、Oracle等國際軟體巨頭的天下,這些先基於單機然後再擴展的方案,都是性能優先于擴充性的解決方案,而且各家都是閉源的技術封閉形成技術壟斷,因此在過去的幾十年裡賺走很大利潤。 我們當前面臨的這次技術升級,是來自于整個社會電子化以後資訊的爆炸,導致可利用的需要處理的資料量暴增,而傳統體系架構並沒有發生革命性的根本變化,比如量子電腦,具備擴充性的方案基本還是X86的天下, 通過線性擴展去應付增長的資料,這給來自Google的內部實踐然後由雅虎的一些工程師參考設計最後流行起來的Hadoop技術路線一個蓬勃發展的機會。

基本上新興的大資料解決方案,都建立在一個相對簡單廉價的分散式檔案系統(HDFS)基礎上,圍繞大資料移動成本極高的關鍵點來設計,通過架構獲得性能優勢和擴充性,相對於傳統方案來說,這具有更好的擴充性和更低的成本。 當然傳統的軟體廠商也在努力去適應這個技術潮流,有的公司會把原有產品和Hadoop這些工具整合打通比如Oracle,有的會和Hadoop商業發行版進行合作一起打造整體解決方案比如EMC和MapR合作, 所以總的來說在當前企業級大資料應用分析特別是互動式分析這塊,還是傳統商務軟體轉型和新興的基於開源標準的商業產品PK的態勢。 但是值得注意的是,基於Hadoop社區的整個產品族趨勢已經形成,這個路線已經是勢不可擋了,這意味著很難再重新做一套Hadoop這樣底層基礎架構的東西並且獲得大家的認可支援, 阿裡的技術團隊能把Oceanbase這麼多年堅持做下來是個奇跡,我個人對此抱有敬意。

思明資料走的是擁抱開源但堅持自主研發的路線,我們提供產品的同時也提供解決方案。 思明的大資料基礎平臺會保持完全的標準化和開放性,這是為了和各大發行版相容,在平臺方面我們主要是bug fix的跟蹤和patch跟蹤,解決各個元件的依賴問題,發佈穩定的,驗證可用的大資料平臺版本。 在此基礎上,我們一方面提供企業級使用必備的功能元件,包括運維管理、任務管理、使用者審計、訪問安全、許可權控制、即時分析引擎等核心元件,另一方面開發豐富的上層應用,我們的即時分析引擎是國內首家整合了MPP和反覆運算計算的混合引擎, 遮罩下面各種元件的複雜性,向上層應用提供一致性的SQL介面;資料採礦平臺致力於讓普通業務人員也能夠輕鬆創建和訓練模型,讓業務人員輕鬆轉型資料科學家 ;視覺化展現平臺能夠讓客戶快速建立基於HTML5的類似資料魔方這樣的報表工具,直觀感受資料的威力;資料工廠則擁有業內領先的大資料即時增量同步的功能。 總的來說, 思明立足于扎實的技術功底提供標準化的平臺搭建,又有強大的上層應用開發能力,説明客戶發揮資料的價值。

附圖:思明大資料產品圖示:


使用者最關心的是什麼

CSDN:思明資料的使用者分佈如何,有沒有一些重量級的客戶?

劉誠忠:我們服務過的使用者已經覆蓋了金融、零售、通信等多個領域,典型的客戶比如中國銀聯、郵政儲蓄銀行、CCTV、中國聯通、國家統計局、蘇甯雲商、國美線上、貴州電網等等,這些客戶都有一個共同點,就是他們有豐富的資料, 迫切需要從這些資料中提煉資訊,進一步引導決策。 一般來說客戶分為兩類,一類是單純的公司資訊架構的技術升級,我們會提供大資料技術平台產品,説明企業進行升級;另一類是面臨新的資料驅動的業務,需要資訊技術支撐,我們會從業務入手,搭建整套解決方案。 因此,思明資料可以說是國內為數不多的,既能夠提供基礎的大資料平臺,又能夠提供與業務密切相關的上層大資料應用的,最完整的大資料整體解決方案供應商。

CSDN:站在客戶的角度,最關心的問題有哪些? 你們如何應對?

劉誠忠:客戶首先關心我面臨的資料如何發揮價值,然後才是這套解決方案依賴何種技術,是否能快速應用,是否能適應後面可能的擴展。 相對技術來說第一點是更難的,這要求和業務方緊密合作,思明的技術團隊植根于資料採礦應用領域多年,有豐富的經驗説明企業做各種資料驅動的業務提升,事實上今天的企業客戶是不希望一個公司只賣產品的,特別在新興技術領域, 思明更願意做的是長期的企業合作夥伴,我們的技術專家會和業務方坐在一起長達數月,討論研究出如何讓資料發揮出價值,用我們的經驗跟客戶已有的業務進行碰撞,一起探討一些新的資料應用場景,這是我們最擅長的, 也是在我們看來客戶最需要的。

第二點才是採用何種技術方案,比如如何搭建底層存儲計算的大資料基礎平臺,但這還只是一個基礎性的設施,這對真正企業的解決方案來說,只是一部分。 大資料技術要在客戶那裡落地,有無數隱形成本,需要考慮包括ETL、運維管理、許可權審計、業務應用、視覺化展現等諸多環節,思明資料是國內目前對大資料提供解決方案最完整的技術公司,我們的產品覆蓋了從資料移轉, 資料基礎平臺到資料採礦應用,資料展現的全棧,這樣的好處是能夠保證最大的一致性對客戶服務,降低交付成本,以最敏捷的方式讓客戶迅速得到業務提升。

思明軟體大資料技術平臺打造歷程

CSDN:能否分享下思明軟體大資料技術平臺的打造歷程?

劉誠忠:經驗很多,教訓更多,整個技術團隊基本都是踩著坑過來的,像我是從秒針系統過來,也有從Ebay、百度、酷我這些互聯網公司過來的同事。 拿我自己來說, 我和我的團隊在2012年開始基於PostgreSQL9.1(pg)做一款分散式資料庫集群,採用分區的一些水準擴展常用方式,用10台機器實現了秒級查詢TB級別資料的目標,當時團隊就3個人,主要精力花在元資料庫的設計,資料如何高效的分表導入集群, 以及利用檔案系統的已有機制便捷的實現一個任務工作流,但是對SQL的解析這塊非常弱,幾乎只能跑最簡單的SQL,因此使用範圍很有限。

不過我們後來在2013年把Cloudera Impala進行了hack,使用Impala作為pg集群的引擎,得到了很好的SQL覆蓋面和不輸于Impala的性能。 在2012年底開始,我們用C++基於pg, rabbitmq訊息佇列自己設計實現了一套分散式存儲計算平臺,這個軟體裡的各個模組充斥著各種程式師喜歡的名字比如Amoeba之類,上線後運行至今, 處理每天秒針對全網幾十億廣告曝光點擊的海量統計日誌,分別出即時報表和每天的批次處理報表,現在看來這個架構類似于混合的Storm和Hadoop。

當時一個清華畢業的工程師用一個範本類非常精簡的實現了Map和Reduce原語,然後我們搭建了核心的批次處理模組,再基於此開發訊息佇列流轉經過的各個運算模組,最後使用PostgreSQL資料庫作為結果匯總, 類似這樣的經驗還有好幾次,2012年的時候我們使用KFS的集群已經上百台,很多問題KFS開發團隊都沒遇到過,只能自己維護一個版本。 我們當時一直在自主開發這些系統,也一直在關注Hadoop社區的進展,同時做各種嘗試和性能對比,對Hadoop的穩定性和可調試性一直都不太滿意, 直到Hadoop2.0出來後,我們認為開源標準這邊的趨勢已經形成,才放心的開始切換到使用Hadoop的路線,於是技術團隊又開心的在Hadoop社區的產品族裡做各種嘗試。

總的來說,我們技術團隊的大多數人有比較類似的教訓,那就是大資料基礎技術的研發成本是很高的,大家各自為戰去開發這些複雜度非常高的系統是一件非常不划算的事情,在目前開源技術成熟的情況下, 緊密結合主流的標準技術是一種對未來負責任的做法,也是更為安全的方案,有個例子是當時Hive出來時對SQL支援很不完善,開源社區有很多人自己開發parser去支援更好的SQL語法,但是這些專案2013年後大部分都停了, 因為後面Hive0.12,0.13沖得很快趕了上來,大家發現使用標準的Hive更容易和整個生態圈的產品協同合作,於是又紛紛轉了回來。 在我看來,開源就類似于三體裡的安全聲明,對某一個細分的技術方向發出號召,大家一起來打造優質的東西,而不是互相不知情各自為戰,這樣的組織方式帶來的好處就是大大降低了後面技術升級時被淘汰的風險。

所以對思明而言,我們提供企業服務,客戶在上線這樣大規模的資訊架構系統面臨什麼風險是我們的第一考慮要素,吃了這麼多年閉源商務軟體的虧,客戶都明白不能被鎖在某一個廠商的平臺上,如果要換其他平臺應該能夠無縫的切換過去, 這就要求我們對客戶儘量提供業界標準的通用技術架構,我們的自主研發產品都是以添加功能的方式放入這個平臺而不是侵入性很強的修改方式,保證整體的移植性不受影響,這樣就有利於客戶後面的技術升級,降低風險。 (轉下頁)

CSDN誠邀您參加中國大資料有獎大調查活動,只需回答23個問題就有機會獲得最高價值2700元的大獎(共10個), 速度參與進來吧!

第八屆中國大資料技術大會(Big Data Technology Conference 2014,BDTC 2014)將于2014年12月12日-14日在北京新雲南皇冠假日酒店召開。 傳承自2008年,歷經七屆沉澱,「中國大資料技術大會」是目前國內最具影響、規模最大的大資料領域技術盛會。 本屆會議,你不僅可以瞭解到Apache Hadoop提交者Uma Maheswara Rao G(兼專案管理委員會成員)、Yi Liu,以及Apache Hadoop和Tez專案管理委員會成員Bikas Saha等分享的通用大資料開源專案的最新成果和發展趨勢,還將斬獲來自騰訊、阿裡、Cloudera、LinkedIn、網易等機構的數十場乾貨分享。 門票限時折扣中, 預購從速。

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.