Mahout駕馭hadoop之詳解

最後更新：2018-12-05 來源：互聯網

上載者：User

創建阿里雲帳戶，並獲得超過 40 款產品的免費試用版；而企業帳戶則可以享有總值 $1200 的免費試用版。立即註冊！

眾所周知,Mahout是基於Hadoop分布式系統的,要想看懂Mahout的源碼,首先得明白mahout是如何使用hadoop的!

首先,在我的<<Hadoop運行原理詳解>>一篇中,詳細介紹了hadoop的運行機制,這裡就不多說了!下面我就以Kmeans聚類演算法為例,講講mahout如何利用hadoop實現資料採礦演算法並行化.如以下類圖所示,

該圖描述了整個mahout實現Kmeans演算法的架構圖,首先KmeansCluster繼承Cluster,在KmeansCluster中有幾個比較重要的方法,首先clusterPoints()是實現Kmeans聚類演算法的方法,而其中調用了runKMeansIteration()方法,該方法是單次聚類迭代方法.

尤其可見,這塊演算法實現和普通kmeans演算法沒有太大差別!在Mahout針對每個演算法都有一個Driver,這個東西是幹什麼的啊?

我們先看看KMeansDriver源碼,KmeansDriver繼承了AbstractJob.我們知道Hadoop上的任務都是以Job的形式啟動的!我們要使用某個演算法進行一項資料採礦工作,因此就要啟動一個Job.因此,KmeansDriver就是建立一個Job,然後對Job的屬性進行配置,然後運行該Job.

反映了KMeansDriver工作原理.

本文章原先以中文撰寫並發佈於 aliyun.com，亦設英文版本，僅作資訊用途。本網站不對文章的準確性，完整性或可靠性或其任何翻譯作出任何明示或暗示的陳述或保證。如對該文章有任何疑慮或投訴，請傳送電郵至 info-contact@alibabacloud.com 並提供相關疑慮或投訴的詳細說明。職員會於 5 個工作天內與您聯絡，一經驗證之後，即會刪除該侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

Get Started for Free

Sales Support

1 on 1 presale consultation

Chat Contact Sales
After-Sales Support

24/7 Technical Support 6 Free Tickets per Quarter Faster Response

Open a Ticket
Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.

Learn More

Mahout駕馭hadoop之詳解

聯繫我們

A Free Trial That Lets You Build Big!

Sales Support

After-Sales Support