[Machine Learning] 國外程式員整理的機器學習資源大全

來源:互聯網
上載者:User

標籤:

  本文彙編了一些機器學習領域的架構、庫以及軟體(按程式設計語言排序)。

1. C++1.1 電腦視覺
  • CCV —基於C語言/提供緩衝/核心的機器視覺庫,新穎的機器視覺庫
  • OpenCV—它提供C++, C, Python, Java 以及 MATLAB介面,並支援Windows, Linux, Android and Mac OS作業系統。
1.2 機器學習
  • MLPack
  • DLib
  • ecogg
  • shark
2. Closure
  • Closure Toolbox—Clojure語言庫與工具的分類目錄
3.Go3.1 自然語言處理
  • go-porterstemmer—一個Porter詞幹提取演算法的原生Go語言淨室實現
  • paicehusk—Paice/Husk詞幹提取演算法的Go語言實現
  • snowball—Go語言版的Snowball詞幹提取器
3.2 機器學習
  • Go Learn— Go語言機器學習庫
  • go-pr —Go語言機器學習包.
  • bayesian—Go語言樸素貝葉斯分類庫。
  • go-galib—Go語言遺傳演算法庫。
3.3 資料分析/資料視覺效果
  • go-graph—Go語言圖形庫。
  • SVGo—Go語言的SVG產生庫。
4. Java4.1 自然語言處理
  • CoreNLP—斯坦福大學的CoreNLP提供一系列的自然語言處理工具,輸入原始英語文本,可以給出單詞的基本形式(下面Stanford開頭的幾個工具都包含其中)。
  • Stanford Parser—一個自然語言解析器。
  • Stanford POS Tagger —一個詞性分類器。
  • Stanford Name Entity Recognizer—Java實現的名稱辨識器
  • Stanford Word Segmenter—分詞器,很多NLP工作中都要用到的標準預先處理步驟。
  • Tregex, Tsurgeon and Semgrex —用來在樹狀資料結構中進行模式比對,基於樹關係以及節點匹配的Regex(名字是“tree regular expressions”的縮寫)。
  • Stanford Phrasal:最新的基於統計短語的機器翻譯系統,java編寫
  • Stanford Tokens Regex—用以定義文字模式的架構。
  • Stanford Temporal Tagger—SUTime是一個識別並標準化時間運算式的庫。
  • Stanford SPIED—在種子集上使用模式,以迭代方式從無標籤文本中學習字元實體
  • Stanford Topic Modeling Toolbox —為社會科學家及其他希望分析資料集的人員提供的主題建模工具。
  • Twitter Text Java—Java實現的推特文本處理庫
  • MALLET -—基於Java的統計自然語言處理、文檔分類、聚類、主題建模、資訊提取以及其他機器學習文本應用程式套件。
  • OpenNLP—處理自然語言文本的機器學習工具包。
  • LingPipe —使用電腦語言學處理文本的工具包。
4.2 機器學習
  • MLlib in Apache Spark—Spark中的分布式機器學習程式庫
  • Mahout —分布式的機器學習庫
  • Stanford Classifier —斯坦福大學的分類器
  • Weka—Weka是資料採礦方面的機器學習演算法集。
  • ORYX—提供一個簡單的大規模即時機器學習/預測性分析基礎架構。
4.3 資料分析/資料視覺效果
  • Hadoop—巨量資料分析平台
  • Spark—快速通用的大規模資料處理引擎。
  • Impala —為Hadoop實現即時查詢
5. Javascript5.1 自然語言處理
  • Twitter-text-js —JavaScript實現的推特文本處理庫
  • NLP.js —javascript及coffeescript編寫的NLP工具
  • natural—Node下的通用NLP工具
  • Knwl.js—JS編寫的自然語言處理器
5.2 資料分析/資料視覺效果
  • D3.js
  • High Charts
  • NVD3.js
  • dc.js
  • chartjs
  • dimple
  • amCharts
5.3 機器學習
  • Convnet.js—訓練深度學習模型的JavaScript庫。
  • Clustering.js—用JavaScript實現的聚類演算法,供Node.js及瀏覽器使用。
  • Decision Trees—Node.js實現的決策樹,使用ID3演算法。
  • Node-fann —Node.js下的快速人工神經網路程式庫。
  • Kmeans.js—k-means演算法的簡單Javascript實現,供Node.js及瀏覽器使用。
  • LDA.js —供Node.js用的LDA主題建模工具。
  • Learning.js—羅吉斯迴歸/c4.5決策樹的JavaScript實現
  • Machine Learning—Node.js的機器學習庫。
  • Node-SVM—Node.js的支援向量機
  • Brain —JavaScript實現的神經網路
  • Bayesian-Bandit —貝葉斯強盜演算法的實現,供Node.js及瀏覽器使用。
6. Julia6.1 機器學習
  • PGM—Julia實現的機率圖模型架構。
  • DA—Julia實現的正則化判別分析包。
  • Regression—迴歸分析演算法包(如線性迴歸和羅吉斯迴歸)。
  • Local Regression —局部迴歸,非常平滑!
  • Naive Bayes —樸素貝葉斯的簡單Julia實現
  • Mixed Models —(統計)混合效應模型的Julia包
  • Simple MCMC —Julia實現的基本mcmc採樣器
  • Distance—Julia實現的距離評估模組
  • Decision Tree —決策樹分類器及迴歸分析器
  • Neural —Julia實現的神經網路
  • MCMC —Julia下的MCMC工具
  • GLM —Julia寫的廣義線性模型包
  • Online Learning
  • GLMNet —GMLNet的Julia封裝版,適合套索/彈性網模型。
  • Clustering—資料聚類的基本函數:k-means, dp-means等。
  • SVM—Julia下的支援向量機。
  • Kernal Density—Julia下的核密度估計器
  • Dimensionality Reduction—降維演算法
  • NMF —Julia下的非負矩陣分解包
  • ANN—Julia實現的神經網路
6.2 自然語言處理
  • Topic Models —Julia下的主題建模
  • Text Analysis—Julia下的文本分析包
6.3 資料分析/資料視覺效果
  • Graph Layout —純Julia實現的圖布局演算法。
  • Data Frames Meta —DataFrames的元編程工具。
  • Julia Data—處理表格式資料的Julia庫
  • Data Read—從Stata、SAS、SPSS讀取檔案
  • Hypothesis Tests—Julia中的假設檢驗包
  • Gladfly —Julia編寫的靈巧的統計繪圖系統。
  • Stats—Julia編寫的統計測試函數包
  • RDataSets —讀取R語言中眾多可用的資料集的Julia函數包。
  • DataFrames —處理表格式資料的Julia庫。
  • Distributions—機率分布及相關函數的Julia包。
  • Data Arrays —元素值可以為空白的資料結構。
  • Time Series—Julia的時間序列資料工具包。
  • Sampling—Julia的基本採樣演算法包
6.4 雜項/簡報
  • DSP —數字訊號處理
  • JuliaCon Presentations—Julia大會上的簡報
  • SignalProcessing—Julia的訊號處理工具
  • Images—Julia的圖片庫
7. Lua7.1 機器學習
  • Torch7
    • cephes —Cephes數學函數庫,封裝成Torch可用形式。提供並封裝了超過180個特殊的數學函數,由Stephen L. Moshier開發,是SciPy的核心,應用於很多場合。
    • graph —供Torch使用的圖形包。
    • randomkit—從Numpy提取的隨機數產生包,封裝成Torch可用形式。
    • signal —Torch-7可用的訊號處理工具包,可進行FFT, DCT, Hilbert, cepstrums, stft等變換。
    • nn —Torch可用的神經網路包。
    • nngraph —為nn庫提供圖形計算能力。
    • nnx—一個不穩定實驗性的包,擴充Torch內建的nn庫。
    • optim—Torch可用的最佳化演算法庫,包括 SGD, Adagrad, 共軛梯度演算法, LBFGS, RProp等演算法。
    • unsup—Torch下的非監督學習包。提供的模組與nn(LinearPsd, ConvPsd, AutoEncoder, …)及獨立演算法 (k-means, PCA)等相容。
    • manifold—操作流形的包。
    • svm—Torch的支援向量機庫。
    • lbfgs—將liblbfgs封裝為FFI介面。
    • vowpalwabbit —老版的vowpalwabbit對torch的介面。
    • OpenGM—OpenGM是C++編寫的圖形建模及推斷庫,該binding可以用Lua以簡單的方式描述圖形,然後用OpenGM最佳化。
    • sphagetti —MichaelMathieu為torch7編寫的稀疏線性模組。
    • LuaSHKit —將局部敏感雜湊庫SHKit封裝成lua可用形式。
    • kernel smoothing —KNN、核權平均以及局部線性迴歸平滑器
    • cutorch—torch的CUDA後端實現
    • cunn —torch的CUDA神經網路實現。
    • imgraph—torch的映像/圖形庫,提供從映像建立圖形、分割、建立樹、又轉化回映像的常式
    • videograph—torch的視頻/圖形庫,提供從視頻建立圖形、分割、建立樹、又轉化回視頻的常式
    • saliency —積分映像的代碼和工具,用來從快速積分長條圖中尋找興趣點。
    • stitch —使用hugin拼合映像並將其產生視頻序列。
    • sfm—運動情境束調整/結構包
    • fex —torch的特徵提取包,提供SIFT和dSIFT模組。
    • OverFeat—當前最高水準的通用密度特徵提取器。
  • Numeric Lua
  • Lunatic Python
  • SciLua
  • Lua – Numerical Algorithms
  • Lunum
7.2 示範及指令碼
  • Core torch7 demos repository.核心torch7示範程式庫
    • 線性迴歸、羅吉斯迴歸
    • 臉部偵測(訓練和檢測是獨立的示範)
    • 基於mst的斷詞器
    • train-a-digit-classifier
    • train-autoencoder
    • optical flow demo
    • train-on-housenumbers
    • train-on-cifar
    • tracking with deep nets
    • kinect demo
    • 濾波可視化
    • saliency-networks
  • Training a Convnet for the Galaxy-Zoo Kaggle challenge(CUDA demo)
  • Music Tagging—torch7下的音樂標籤指令碼
  • torch-datasets 讀取幾個流行的資料集的指令碼,包括:
    • BSR 500
    • CIFAR-10
    • COIL
    • Street View House Numbers
    • MNIST
    • NORB
  • Atari2600 —在Arcade Learning Environment模擬器中用靜態幀產生資料集的指令碼。
8. Matlab8.1 電腦視覺
  • Contourlets —實現輪廓波變換及其使用函數的MATLAB原始碼
  • Shearlets—剪下波變換的MATLAB源碼
  • Curvelets—Curvelet變換的MATLAB源碼(Curvelet變換是對小波變換向更高維的推廣,用來在不同尺度角度表示映像。)
  • Bandlets—Bandlets變換的MATLAB源碼
8.2 自然語言處理
  • NLP —一個Matlab的NLP庫
8.3 機器學習
  • Training a deep autoencoder or a classifier on MNIST digits—在MNIST字元資料集上訓練一個深度的autoencoder或分類器[深度學習]。
  • t-Distributed Stochastic Neighbor Embedding —獲獎的降維技術,特別適合於高維資料集的可視化
  • Spider—Matlab機器學習的完整物件導向環境。
  • LibSVM —支援向量機程式庫
  • LibLinear —大型線性分類程式庫
  • Machine Learning Module —M. A .Girolami教授的機器學習課程,包括PDF,講義及代碼。
  • Caffe—考慮了代碼清潔、可讀性及速度的深度學習架構
  • Pattern Recognition Toolbox —Matlab中的模式識別工具包,完全物件導向
8.4 資料分析/資料視覺效果
  • matlab_gbl—處理映像的Matlab包
  • gamic—映像演算法純Matlab高效實現,對MatlabBGL的mex函數是個補充。
9. .NET9.1 電腦視覺
  • OpenCVDotNet —封裝器,使.NET程式能使用OpenCV代碼
  • Emgu CV—跨平台的封裝器,能在Windows, Linus, Mac OS X, iOS, 和Android上編譯。
9.2 自然語言處理
  • Stanford.NLP for .NET —斯坦福大學NLP包在.NET上的完全移植,還可作為NuGet包進行先行編譯。
9.3 通用機器學習
  • Accord.MachineLearning —支援向量機、決策樹、樸素貝葉斯模型、K-means、高斯混合模型和機器學習應用的通用演算法,例如:隨機抽樣一致性演算法、交叉驗證、網格搜尋。這個包是Accord.NET架構的一部分。
  • Vulpes—F#語言實現的Deep belief和深度學習包,它在Alea.cuBase下利用CUDA GPU來執行。
  • Encog —先進的神經網路和機器學習架構,包括用來建立多種網路的類,也支援神經網路需要的資料規則化及處理的類。它的訓練採用多線程彈性傳播。它也能使用GPU加快處理時間。提供了圖形化介面來協助建模和訓練神經網路。
  • Neural Network Designer —這是一個資料庫管理系統和神經網路設計器。設計器用WPF開發,也是一個UI,你可以設計你的神經網路、查詢網路、建立並配置聊天機器人,它能問問題,並從你的反饋中學習。這些機器人甚至可以從網路搜集資訊用來輸出,或是用來學習。
9.4 資料分析/資料視覺效果
  • numl —numl這個機器學習庫,目標就是簡化預測和聚類的標準建模技術。
  • Math.NET Numerics—Math.NET項目的數值計算基礎,著眼提供科學、工程以及日常數值計算的方法和演算法。支援 Windows, Linux 和 Mac上的 .Net 4.0, .Net 3.5 和 Mono ,Silverlight 5, WindowsPhone/SL 8, WindowsPhone 8.1 以及裝有 PCL Portable Profiles 47 及 344的Windows 8, 裝有 Xamarin的Android/iOS 。
  • Sho —Sho是資料分析和科學計算的互動式環境,可以讓你將指令碼(IronPython語言)和編譯的代碼(.NET)無縫串連,以快速靈活的建立原型。這個環境包括強大高效的庫,如線性代數、資料視覺效果,可供任何.NET語言使用,還為快速開發提供了功能豐富的互動式shell。
10. Python10.1 電腦視覺
  • SimpleCV—開源的電腦視覺架構,可以訪問如OpenCV等高效能運算機視覺庫。使用Python編寫,可以在Mac、Windows以及Ubuntu上運行。
10.2 自然語言處理
  • NLTK —一個領先的平台,用來編寫處理人類語言資料的Python程式
  • Pattern—Python可用的web挖掘模組,包括自然語言處理、機器學習等工具。
  • TextBlob—為普通自然語言處理任務提供一致的API,以NLTK和Pattern為基礎,並和兩者都能很好相容。
  • jieba—中文斷詞工具。
  • SnowNLP —中文文本處理庫。
  • loso—另一個中文斷詞庫。
  • genius —基於條件隨機域的中文斷詞庫。
  • nut —自然語言理解工具包。
10.3 機器學習
  • Bayesian Methods for Hackers —Python語言機率規劃的電子書
  • MLlib in Apache Spark—Spark下的分布式機器學習庫。
  • scikit-learn—基於SciPy的機器學習模組
  • graphlab-create —包含多種機器學習模組的庫(迴歸,聚類,推薦系統,圖分析等),基於可以磁碟儲存的DataFrame。
  • BigML—串連外部伺服器的庫。
  • pattern—Python的web挖掘模組
  • NuPIC—Numenta公司的智能計算平台。
  • Pylearn2—基於Theano的機器學習庫。
  • hebel —Python編寫的使用GPU加速的深度學習庫。
  • gensim—主題建模工具。
  • PyBrain—另一個機器學習庫。
  • Crab —可擴充的、快速Recommendation Engine。
  • python-recsys —Python實現的推薦系統。
  • thinking bayes—關於貝葉斯分析的書籍
  • Restricted Boltzmann Machines —Python實現的受限波爾茲曼機。[深度學習]。
  • Bolt —線上學習工具箱。
  • CoverTree —cover tree的Python實現,scipy.spatial.kdtree便捷的替代。
  • nilearn—Python實現的神經影像學機器學習庫。
  • Shogun—機器學習工具箱。
  • Pyevolve —遺傳演算法架構。
  • Caffe —考慮了代碼清潔、可讀性及速度的深度學習架構
  • breze—深度及遞迴神經網路的程式庫,基於Theano。
10.4 資料分析/資料視覺效果
  • SciPy —基於Python的數學、科學、工程開源軟體生態系統。
  • NumPy—Python科學計算基礎包。
  • Numba —Python的低級虛擬機器JIT編譯器,Cython and NumPy的開發人員編寫,供科學計算使用
  • NetworkX —為複雜網路使用的高效軟體。
  • Pandas—這個庫提供了高效能、易用的資料結構及資料分析工具。
  • Open Mining—Python中的商業智慧工具(Pandas web介面)。
  • PyMC —MCMC採樣工具包。
  • zipline—Python的演算法交易庫。
  • PyDy—全名Python Dynamics,協助基於NumPy, SciPy, IPython以及 matplotlib的動態建模工作流程。
  • SymPy —符號數學Python庫。
  • statsmodels—Python的統計建模及計量經濟學庫。
  • astropy —Python天文學程式庫,社區協作編寫
  • matplotlib —Python的2D繪圖庫。
  • bokeh—Python的互動式Web繪圖庫。
  • plotly —Python and matplotlib的協作web繪圖庫。
  • vincent—將Python資料結構轉換為Vega可視化文法。
  • d3py—Python的繪圖庫,基於D3.js。
  • ggplot —和R語言裡的ggplot2提供同樣的API。
  • Kartograph.py—Python中渲染SVG圖的庫,效果漂亮。
  • pygal—Python下的SVG圖表產生器。
  • pycascading
10.5 雜項指令碼/iPython筆記/程式碼程式庫
  • pattern_classification
  • thinking stats 2
  • hyperopt
  • numpic
  • 2012-paper-diginorm
  • ipython-notebooks
  • decision-weights
  • Sarah Palin LDA —Sarah Palin關於主題建模的電郵。
  • Diffusion Segmentation —基於擴散方法的映像分割演算法集合。
  • Scipy Tutorials —SciPy教程,已淘汰,請查看scipy-lecture-notes
  • Crab—Python的Recommendation Engine庫。
  • BayesPy—Python中的貝葉斯推斷工具。
  • scikit-learn tutorials—scikit-learn學習筆記系列
  • sentiment-analyzer —推特情感分析器
  • group-lasso—座標下降演算法實驗,應用於(稀疏)群套索模型。
  • mne-python-notebooks—使用 mne-python進行EEG/MEG資料處理的IPython筆記
  • pandas cookbook—使用Python pandas庫的方法書。
  • climin—機器學習的最佳化程式庫,用Python實現了梯度下降、LBFGS、rmsprop、adadelta 等演算法。
10.6 Kaggle競賽原始碼
  • wiki challange —Kaggle上一個維基預測挑戰賽 Dell Zhang解法的實現。
  • kaggle insults—Kaggle上”從社交媒體評論中檢測辱罵“競賽提交的代碼
  • kaggle_acquire-valued-shoppers-challenge—Kaggle預測回頭客挑戰賽的代碼
  • kaggle-cifar —Kaggle上CIFAR-10 競賽的代碼,使用cuda-convnet
  • kaggle-blackbox —Kaggle上blackbox賽代碼,關於深度學習。
  • kaggle-accelerometer —Kaggle上加速度計資料識別使用者競賽的代碼
  • kaggle-advertised-salaries —Kaggle上用廣告預測工資競賽的代碼
  • kaggle amazon —Kaggle上給定員工角色預測其訪問需求競賽的代碼
  • kaggle-bestbuy_big—Kaggle上根據bestbuy使用者查詢預測點擊商品競賽的代碼(大資料版)
  • kaggle-bestbuy_small—Kaggle上根據bestbuy使用者查詢預測點擊商品競賽的代碼(小資料版)
  • Kaggle Dogs vs. Cats —Kaggle上從圖片中識別貓和狗競賽的代碼
  • Kaggle Galaxy Challenge —Kaggle上遙遠星系形態分類競賽的優勝代碼
  • Kaggle Gender —Kaggle競賽:從筆跡區分性別
  • Kaggle Merck—Kaggle上預測藥物分子活性競賽的代碼(默克製藥贊助)
  • Kaggle Stackoverflow—Kaggle上 預測Stack Overflow網站問題是否會被關閉競賽的代碼
  • wine-quality —預測紅酒品質。
11. Ruby11.1 自然語言處理
  • Treat—文本檢索與注釋工具包,Ruby上我見過的最全面的工具包。
  • Ruby Linguistics—這個架構可以用任何語言為Ruby對象構建語言學工具。包括一個語言無關的通用前端,一個將語言代碼映射到語言名的模組,和一個含有很有英文語言工具的模組。
  • Stemmer—使得Ruby可用 libstemmer_c中的介面。
  • Ruby Wordnet —WordNet的Ruby介面庫。
  • Raspel —aspell綁定到Ruby的介面
  • UEA Stemmer—UEALite Stemmer的Ruby移植版,供搜尋和檢索用的保守的詞幹分析器
  • Twitter-text-rb—該程式庫可以將推特中的使用者名稱、列表和話題標籤自動連接並提取出來。
11.2 機器學習
  • Ruby Machine Learning —Ruby實現的一些機器學習演算法。
  • Machine Learning Ruby
  • jRuby Mahout —精華!在JRuby世界中釋放了Apache Mahout的威力。
  • CardMagic-Classifier—可用貝葉斯及其他分類法的通用分類器模組。
  • Neural Networks and Deep Learning—《神經網路和深度學習》一書的範例程式碼。
11.3 資料分析/資料視覺效果
  • rsruby – Ruby – R bridge
  • data-visualization-ruby—關於資料視覺效果的Ruby Manor示範的原始碼和支援內容
  • ruby-plot —將gnuplot封裝為Ruby形式,特別適合將ROC曲線轉化為svg檔案。
  • plot-rb—基於Vega和D3的ruby繪圖庫
  • scruffy —Ruby下出色的圖形工具包
  • SciRuby
  • Glean—資料管理工具
  • Bioruby
  • Arel
12. R12.1 通用機器學習
  • Clever Algorithms For Machine Learning
  • Machine Learning For Hackers
  • Machine Learning Task View on CRAN—R語言機器學習包列表,按演算法類型分組。
  • caret—R語言150個機器學習演算法的統一介面
  • SuperLearner and subsemble—該包集合了多種機器學習演算法
  • Introduction to Statistical Learning
12.2 資料分析/資料視覺效果
  • Learning Statistics Using R
  • ggplot2—基於圖形文法的資料視覺效果包。
13. Scala13.1 自然語言處理
  • ScalaNLP—機器學習和數值計算庫的套裝
  • Breeze —Scala用的數值處理庫
  • Chalk—自然語言處理庫。
  • FACTORIE—可部署的機率建模工具包,用Scala實現的軟體庫。為使用者提供簡潔的語言來建立關係因素圖,評估參數並進行推斷。
13.2 資料分析/資料視覺效果
  • MLlib in Apache Spark—Spark下的分布式機器學習庫
  • Scalding —CAscading的Scala介面
  • Summing Bird—用Scalding 和 Storm進行Streaming MapReduce
  • Algebird —Scala的抽象代數工具
  • xerial —Scala的資料管理工具
  • simmer —化簡你的資料,進行代數彙總的unix過濾器
  • PredictionIO —供軟體開發人員和資料工程師用的機器學習伺服器。
  • BIDMat—支援大規模探索性資料分析的CPU和GPU加速矩陣庫。
13.3 機器學習
  • Conjecture—Scalding下可擴充的機器學習架構

  • brushfire—scalding下的決策樹工具

  • ganitha —基於scalding的機器學習程式庫

  • adam—使用Apache Avro, Apache Spark 和 Parquet的基因組處理引擎,有專用的檔案格式,Apache 2軟體許可。

  • bioscala —Scala語言可用的生物資訊學程式庫

  • BIDMach—機器學習CPU和GPU加速庫。

 

[Machine Learning] 國外程式員整理的機器學習資源大全

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.