來源:互聯網
上載者:User
關鍵字
大資料
機器學習
開源
Hadoop
SHOGUN
GoLearn
H2O
MLlib
垃圾郵件過濾、人臉識別、推薦引擎——當你有一個大資料集並且希望利用它們執行預測分析和模式識別,機器學習是必經之路。 這門科學,電腦可以在沒有事先規劃的前提下自主學習、分析和運算元據,現在越來越多的開發人員關注機器學習。
機器學習技術的興起不僅是因為硬體成本越來越便宜以及性能越來越強大,促使機器學習在單機或大規模集群上輕鬆部署的免費軟體激增也是重要因素。 機器學習庫的多樣性意味著無論你喜歡什麼語言或環境,都有可能是獲得你喜歡的。
1. Scikit-learn
Python由於其易用性以及豐富的函式程式庫,已經成為數學、自然科學和統計學的首選程式設計語言。 Scikit-learn通過在現有Python包上構建——NumPy SciPy和matplotlib——服務于數學和自然科學。 生成的庫要麼可以使用互動式「工作臺」應用程式,要麼被嵌入到其他軟體和重用。 工具箱可以在BSD許可下獲取,所以它是完全開放和可重用的。
Project: scikit-learn
GitHub: HTTPs://github.com/scikit-learn/scikit-learn
2. Shogun
在最古老、最值得尊敬的機器學習庫中,Shogun創建于1999年,用C++編寫,但並不限於在C++工作。 由於SWIG庫,Shogun可以輕鬆在JAVA、Python、C#、Ruby、R、Lua、Octave、Matlab語言和環境下使用。
雖然德高望重,Shogun也有其他的競爭者。 另一個基於C++的機器學習庫Mlpack在2011年出現,它宣稱比其他競爭者速度更快並且更容易使用(一個更完整的API集)。
Project: Shogun
GitHub: HTTPs://github.com/shogun-toolbox/shogun
3. Accord Framework/AForge.net
Accord,一個. Net的機器學習和信號處理框架,是早前類似一個專案AForge.net的擴展。 順便說一下,「信號處理」這裡是指一系列對圖像和音訊的機器學習演算法,如圖片無縫縫合或執行人臉檢測。 包含一組視覺處理演算法;它作用於圖像流(如視頻),並且可用於實現移動物件的跟蹤等功能。 Accord還提供一個從神經網路到決策樹系統的機器學習常見庫。
Project: Accord Framework/AForge.net
GitHub: HTTPs://github.com/accord-net/framework/
4. Mahout
Mahout框架一直與Hadoop相關聯,但旗下很多演算法還可以脫離Hadoop運行。 他們對那些可能最終遷移到Hadoop上的應用程式或從Hadoop上剝離成為獨立應用程式的專案非常有用。
Mahout缺點之一:目前幾乎沒有演算法支援高性能的Spark框架,反而使用日益過時的MapReduce框架。 該專案目前不接受基於MapReduce的演算法,那些想要獲得更高性能的開發者轉而用MLlib 替代。
Project: Mahout
5. MLlib
Apache自己的Spark和Hadoop機器學習庫,旨在為大規模和高速度而設計的MLlib自稱擁有所有常見的演算法和有用資料類型。 與任何Hadoop專案一樣,JAVA是MLlib上的基礎語言,但是Python使用者可以用MLlib NumPy庫連接(也用於scikit-learn),並且Scala使用者可以針對MLlib編寫代碼。 如果不能設置一個Hadoop集群,MLlib可以在沒有Hadoop的情況下部署在Spark上——以及在EC2或Mesos上。
Project:MLlib
全國大資料創新專案評選活動目前正在如火如荼進行中,詳情點擊這裡。
2014中國大資料技術大會(Big Data Technology Conference 2014,BDTC 2014)將于2014年12月12日-14日在北京新雲南皇冠假日酒店召開。 傳承自2008年,歷經七屆沉澱,「中國大資料技術大會」是目前國內最具影響、規模最大的大資料領域技術盛會。 本屆會議,你不僅可以瞭解到Apache Hadoop提交者Uma Maheswara Rao G(兼專案管理委員會成員)、Yi Liu,以及Apache Hadoop和Tez專案管理委員會成員Bikas Saha等分享的通用大資料開源專案的最新成果和發展趨勢,還將斬獲來自騰訊、阿裡、Cloudera、LinkedIn、網易等機構的數十場乾貨分享。 當下門票團購還有些許優惠, 預購從速。
免費訂閱「CSDN大資料」微信公眾號,即時瞭解最新的大資料進展!
CSDN大資料,專注大資料資訊、技術和經驗的分享和討論,提供Hadoop、Spark、Impala、Storm、HBase、MongoDB、Solr、機器學習、智慧演算法等相關大資料觀點,大資料技術,大資料平臺,大資料實踐 ,大資料產業資訊等服務。