來源:互聯網
上載者:User
關鍵字
機器學習
目前
推薦系統
開源工具
推薦引擎
Hadoop發行商Cloudera去年收購倫敦的創業公司Myrrix時,並未引起業界太多關注,其後Cloudera也很少宣傳公司在機器學習方面的技術。 但是Myrrix的的技術和其創始人Sean Owen在機器學習方面的價值和影響力不容小覷。
Owen目前正在開發一個開源機器學習專案——Oryx(大羚羊,Cloudera還銷售一款產品叫黑斑羚,Impala)。
Oryx的目標是説明Hadoop使用者搭建並部署能夠即時查詢的機器學習模型,例如垃圾郵件過濾和推薦引擎。 隨著資料的不斷流入,Oryx還將支援自我更新。
無論從建模還是部署,Oryx都可以隨需擴展,Owen認為這是Oryx與Hadoop的傳統「甜蜜點」——探索性分析和運營性分析最大的不同。
Owen認為傳統的在Hadoop上部署機器學習的技術——Apache Mahout已經走到盡頭。
「Mahout受制于第一代MapReduce只能處理批任務的局限,使用者需要做大量的工作才能搭建並讓機器學習系統運轉起來,而Myrrix重寫了Mahout,解決了所有老問題。 如果Mahout還有藥可救,Cloudera就不會收購Myrrix。 Oryx差不多有90%的代碼都來自Myrrix,也有一些代碼來自Cloudera」Owen說道。
人人都能使用的開源推薦引擎?
Oryx的定位不是機器學習演算法的程式庫,Owen關注的重點有四個:回歸、分類、集群和協作式過濾(也就是推薦)。 其中推薦系統非常熱門,Owen正在與幾個Cloudera的客戶合作,幫他們使用Oryx部署推薦系統。
將Oryx打造成開發推薦系統的標準化工具的做法將使這個專案贏得極大關注,因為推薦系統幾乎已經成了主流網站的標配,無論是電商還是內容網站都需要推薦系統提高網站的使用者體驗和轉化率。 但是推薦引擎技術目前面臨的最大問題就是缺乏標準和開源工具。
致力於推薦技術標準化的公司不僅是Oryx一家,另外一家雲計算創業公司Mortar Data也在積極推動使用者推薦引擎技術的開發,並展現其開源推薦框架的優點。 其他一些公司注入Expect Labs雖然沒有開源,但試圖通過人工智慧API介面實現推薦系統的自動化。
目前還不是一個產品
Owen認為Cloudera的所有客戶(以及絕大多數的Hadoop使用者)最終都想要部署運營型機器分析系統——不僅僅是推薦,Oryx將來有可能成為實現工具,但目前Oryx還只是一個實驗性專案。
目前Owen還在花費大量時間擔當Apache Spark專案的貢獻者,他想重寫Oryx,將Spark而不是MapReduce作為主要的處理框架,因為Spark已經成為下一代大資料應用的熱門技術。 由於性能和速度優於MapReduce,且更加容易使用,Spark目前已經擁有一個龐大的使用者和貢獻者社區。 這意味著Spark更加符合下一代低延遲、即時處理、反覆運算計算的大資料應用的要求,包括基於Oryx開發的即時機器學習系統。