Druid是一個為大型冷資料集上即時探索查詢而設計的開來源資料分析和存儲系統,提供極具成本效益並且永遠線上的即時資料攝取和任意資料處理,並且在面對代碼部署、機器故障以及其他產品系統遇到不測時能保持100%正常運行。
2014年10月25日,由eBay、CSDN共同舉辦的「大資料峰會」在上海舉行,Druid創始人Eric Tschetter發表了演講「Druid之旅,大資料即時分析資料存儲框架」,之後Eric接受了CSDN的專訪。
很巧,在阿裡有一個開源的JAVA資料庫驅動也叫Druid,阿裡Druid專案的負責人溫少也曾接受過CSDN的採訪。
Eric Tschetter本科就讀于德克薩斯大學奧斯丁分校,在東京國立情報學研究所拿到了電腦科學的碩士學位。 之後在矽谷,Eric加入了Marc Andreessen創辦的社交網路平臺公司Ning(這個名字取自中文「甯」的拼音);後來Eric又加入了LinkedIn,參與了「People You May Know」產品 ;離開LinkedIn後,Eric成為了Metamarkets的第一位全職雇員,並在那裡開發Druid。 目前,Eric為一家非盈利組織Tidepool工作,為糖尿病人提供開源的醫療數位化應用。
Druid創始人 Eric Tschetter
Druid是一個開源的分散式即時處理系統,旨在快速處理大規模的資料,並能做到快速查詢和分析。 為燒錢的大資料處理,提供一種更廉價的選擇,目前來說是這個領域唯一的開源產品。 Druid還將一些基本功能UI化,為非技術人員提供服務。 說到與Druid最類似的專案,Eric認為是Google的PowerDrill。
MapReduce和BigTable的論文催生了大資料處理的事實標準Hadoop。 Dremel和PowerDrill問世後,很多人都在好奇有哪些開源大資料技術又要興起,Druid會是其中之一嗎? 應用場景
Druid應用最多的是類似于Metamarkets中的應用場景——廣告分析,互聯網廣告系統監控、度量和網路監控。 並且eBay也已經計畫將Druid用於生產環境中。
開發團隊
目前Druid被託管在GitHub上,有44個contributor,1000+的關注,Druid 的主要貢獻者,包括Metamarkets,Netflix、Yahoo和一些矽谷的創業公司。 Druid 的開發人員通過Druid 論壇互動和支援Druid 的開發。 筆者剛剛查看了Druid的Google Group,最近一直保持著比較活躍的討論。
Eric介紹說,每當他們學到新的東西或有新的想法,總會儘快去實踐檢驗。 所以自2011年3月第一條代碼提交至今,Druid有了很大的改進。 比如資料的存儲方式,大概變化了9次,查詢流程大概變化了3-4次,各個節點間的相互協調大概變化了3次,但是每個節點製作一件事情的原則沒有變化過。 Eric說未來可能還會有更多的變化,但是基本的架構不會改變。
Druid的中國元素
中國工程師Fangjin Yang(楊仿今),與Eric一起負責Druid的主要開發工作
Eric開始Druid專案之後的幾個月,Fangjin Yang 加入了這個專案。 之後的幾年,Eric和Fangjin並肩開發了Druid。 Eric和Fangjin到目前為止一直是Druid最主要貢獻者。 今年,Eric和Fangjin開始了和一些中國公司的合作,説明這些公司評估Druid以及回答關於Druid的問題。 據Eric介紹,在中國,雲廣天下(西安)網路科技有限公司旗下的YeahMobi正在使用Druid。
文檔和支援
也許是得益于Eric在本科畢業後做過翻譯等相關的文檔工作,Druid的相關文檔編寫得很詳細、有條理。 Eric說,關於這個專案感到最驕傲的事情,就是將其開源了,其他人僅通過Druid和一些相關文檔,就可以解決很多問題。
同時Eric的開發團隊,通過一個郵寄清單(druid-development@googlegroups.com)為Druid的使用者提供支援服務,但是目前還沒有專門的贏利公司為其提供支援。
Druid的未來計畫
Druid的未來計畫,是繼續保持這個開源專案的健康成長。 圍繞Druid已經聚集了多位來自不同公司的工程師。 每位工程師、每個公司都希望看到Druid能夠帶來新的東西,他們的需求有時相同,有時不同,但是大家協力合作,就能把Druid做得更好。 所以Eric希望Druid能成為大家共有的專案,形成一個社區,靠這個社區來指引Duid的發展方向。
Eric對未來的展望讓筆者想起了Docker目前的發展,Eric說如果圍繞Druid,能形成像Docker一樣的生態系統,的確會是巨大的成功。
目前,Druid還沒有公開的Roadmap,但是Druid已經開始了相關的制定工作,並在嘗試和Metamarkets、Yahoo、Netflix和eBay共同合作,同時Eric表示也會參考其他Druid技術實踐者的建議。
大資料技術的未來:合久必分,分久必合?
談到大資料技術的未來,Eric回顧了60、70年代甚至80年代,關係資料庫的發展歷史。 那時有物件資料庫、關係資料庫等多種資料庫類型,最終關聯式資料庫成為了主流,其它類型的資料庫或者消失或者被邊緣化。 一直到2006年左右,關聯式資料庫還是占主導地位,其實70、80年代的資料庫類型,都是基於「與存儲介質的交互很貴」這樣的假定設計的。 但隨著存儲變得越來越廉價,記憶體越來越便宜,這個假定不成立了,相應的設計架構也需要調整,於是產生了NoSQL。 Eric認為大資料技術也是以此為基礎的。 如今,大家都在基於新的硬體環境,尋找最優的解決方案,資料庫技術又走入了新一輪的「百家爭鳴」的階段,特別是近幾年出現的多種資料庫技術。 Eric認為,大概在5-10年之後,資料庫技術也會進入新一輪的融合階段,屆時大資料技術才會有清晰的發展方向,或許根據你的應用場景,也將有人能為你提供最佳的解決方案。
在被問及:「你認為Druid會是未來的方向嗎? 」Eric坦言說:「我不知道,但我希望是。 Druid只是為解決已有的問題提供了一種新的思路,正確與否我還不能肯定,但我知道它解決了Metamarkets等許多公司的問題。 但它能解決所有問題嗎? 答案是否定的,所以我不知道未來資料庫技術會向哪個方向融合。 」
CSDN誠邀您參加中國大資料有獎大調查活動,只需回答23個問題就有機會獲得最高價值2700元的大獎(共10個), 速度參與進來吧!