來源:互聯網
上載者:User
關鍵字
雲計算
開源
Docker
Hadoop
OpenStack
eHarmony
【編者按】作為美國最大的婚戀交友網站之一的eHarmony通過性格測試來進行婚戀匹配,所有加入eHarmony的使用者,必須首先回答由心理學家精心設計的數百個問題,eHarmony借此瞭解使用者個性的數十個維度, 並基於此給使用者介紹合適的交往物件。 隨著OpenStack、Hadoop、Spark、Docker等技術的發展,公司CTO Thod Nguyen表示他們正在積極擁抱這些技術。
以下為譯文:
這計畫開始于2013年,預計在2015年底結束,Nguyen在最近的一次採訪中告訴我。 eHarmony將現有以虛擬化為中心的資料中心轉變為私有雲環境的一個很大原因是希望運行開源的OpenStack雲軟體。 這將給公司在擴展和配置基礎設施方面更大的靈活性,包括虛擬伺服器和存儲,這些將強化其網站和移動App。
eHarmony的業務都安裝在思科的UCS刀片伺服器上(伺服器已經悄悄地成為思科數十億美元的業務),現在公司希望能將web伺服器數量從目前的1000台機器裁減到一半,他說,該公司還管理著約2000台其他設備。
Cisco的刀片伺服器
eHarmony以前也研究過Citrix系統支援的開源CloudStack技術,但Nguyen說OpenStack似乎可伸縮性更好。 儘管OpenStack已經支援有很多大型IT公司支援,並且使用者也越來越多,但這不影響他們的評估。
「作為軟體定義存儲解決方案的一部分,它通過OpenStack Swift元件給你在共用存儲方面有更多的靈活性,」Nguyen補充道,「我們真正的終極目標是能夠以最小的運營成本來讓存儲規模指數增長。 」
但是Nguyen表示,eHarmony專注于運營效率的新方案不會止步在OpenStack上,時下,該公司也在為簡化分散式應用程式的部署和管理考慮流行的Docker容器技術,並且在某些情況下它們也許「可以探索公有雲解決方案 」。 eHarmony已經使用AWS來概念驗證和災害復原,他補充說。
Nguyen說: 「利用Docker的概念,我們在不需要投資DR資料中心的情況下,就可以很輕鬆的擁有一個DR解決方案運行在一個請求式公有雲上,而投資DR資料中心對我們來說非常,非常昂貴。
Thod Nguyen
但eHarmony也收集並分析了大量的資料——Nguyen預計在未來幾年將達到PB級別,其先前運行在512 節點SeaMicro裝置上的Hadoop環境已經成為擴展和創新的一個障礙。 每個工作負載需要它自己的集群,Nguyen解釋道,這意味著所有其他裝置都是這樣並且需要再次複製相同的資料。
轉移到運行YARN資源管理框架的單個集群上將給公司帶來很多益處。 首先,它可以在同一組伺服器上承載多重工作負載和流程框架,共用相同的檔案系統。 它還可以按需增加容量來水準擴展,而不是每次通過512個節點。
一個共用的Hadoop集群具有商業意義,Nguyen解釋道。 eHarmony可以在更便捷和更少投入的前提下,啟動新的大資料應用程式,並且YARN意味著eHarmony可以開始著眼新技術,如加快機器學習工作負載的Spark和流處理的Storm。
雖然公司和大多數的交友網站一樣,最出名的是它的匹配演算法,但Nguyen表示,更好的資料基礎設施也將給業務方面帶來更好的模型,包括諸如價格優化和使用者體驗。
Hortonworks YARN on Hadoop架構圖
「我們的目標是創建一個資料產品,能夠真正可以提供正確的功能,非常吸引客戶的正確特性集,他說。 「我們應該在客戶提出要求之前,提供給他們想要的產品。 」
eHarmony在技術上的改造,特別是在資料方面並不是巧合。 實際上在過去一兩年,Spark、 Storm 和 Kafka技術開始達到臨界點,使其在交互地或即時分析資料以及定期對機器學習模型進行反覆運算更為可行。
「我認為大資料被炒作的過頭了「,Nguyen說。 「許多人認為他們正在做大資料,但他們只是僅僅在存儲資料,他們實際上用資料作不了任何事。 」
原文連結: Why eHarmony is rebuilding itself atop Hadoop and (probably) OpenStack (責編/魏偉)
CSDN誠邀您參加中國大資料有獎大調查活動,只需回答23個問題就有機會獲得最高價值2700元的大獎(共10個), 速度參與進來吧!
全國大資料創新專案評選活動目前也在如火如荼進行中,詳情點擊這裡。
2014中國大資料技術大會(Big Data Technology Conference 2014,BDTC 2014)將于2014年12月12日-14日在北京新雲南皇冠假日酒店召開。 傳承自2008年,歷經七屆沉澱,「中國大資料技術大會」是目前國內最具影響、規模最大的大資料領域技術盛會。 本屆會議,你不僅可以瞭解到Apache Hadoop提交者Uma Maheswara Rao G(兼專案管理委員會成員)、Yi Liu,以及Apache Hadoop和Tez專案管理委員會成員Bikas Saha等分享的通用大資料開源專案的最新成果和發展趨勢,還將斬獲來自騰訊、阿裡、Cloudera、LinkedIn、網易等機構的數十場乾貨分享。 門票限時折扣中, 預購從速。
免費訂閱「CSDN大資料」微信公眾號,即時瞭解最新的大資料進展!
CSDN大資料,專注大資料資訊、技術和經驗的分享和討論,提供Hadoop、Spark、Impala、Storm、HBase、MongoDB、Solr、機器學習、智慧演算法等相關大資料觀點,大資料技術,大資料平臺,大資料實踐 ,大資料產業資訊等服務。