為什麼要選擇Python語言實現機器學習演算法

來源:互聯網
上載者:User

基於以下三個原因,我們選擇Python作為實現機器學習演算法的程式設計語言:(1) Python的文法清晰;(2) 易於操作純文字檔案;(3) 使用廣泛,存在大量的開發文檔。

可執行虛擬碼

Python具有清晰的文法結構,大家也把它稱作可執行虛擬碼(executable pseudo-code)。預設安裝的Python開發環境已經附帶了很多進階資料類型,如列表、元組、字典、集合、隊列等,無需進一步編程就可以使用這些資料類型的操作。使用這些資料類型使得實現抽象的數學概念非常簡單。此外,讀者還可以使用自己熟悉的編程風格,如物件導向編程、面向過程編程、或者函數式編程。不熟悉Python的讀者可以參閱附錄A,該附錄詳細介紹了Python語言、Python使用的資料類型以及安裝指南。

Python語言處理和操作文字檔非常簡單,非常易於處理非數值型資料。Python語言提供了豐富的Regex函數以及很多訪問Web頁面的函數庫,使得從HTML中提取資料變得非常簡單直觀。

Python比較流行

Python語言使用廣泛,代碼範例也很多,便於讀者快速學習和掌握。此外,在開發實際應用程式時,也可以利用豐富的模組庫縮短開發週期。

在科學和金融領域,Python語言得到了廣泛應用。SciPy和NumPy等許多科學函數庫都實現了向量和矩陣操作,這些函數庫增加了代碼的可讀性,學過線性代數的人都可以看懂代碼的實際功能。另外,科學函數庫SciPy和NumPy使用底層語言(C和Fortran)編寫,提高了相關應用程式的計算效能。本書將大量使用Python的NumPy。

Python的科學工具可以與繪圖工具Matplotlib協同工作。Matplotlib可以繪製2D、3D圖形,也可以處理科學研究中經常使用到的圖形,所以本書也將大量使用Matplotlib。

Python開發環境還提供了互動式shell環境,允許使用者開發程式時查看和檢測程式內容。

Python開發環境將來還會整合Pylab模組,它將NumPy、SciPy和Matplotlib合并為一個開發環境。在本書寫作時,Pylab還沒有併入Python環境,但是不遠的將來我們肯定可以在Python開發環境找到它。

Python語言的特色

諸如MATLAB和Mathematica等進階程式語言也允許使用者執行矩陣操作,MATLAB甚至還有許多內嵌的特徵可以輕鬆地構造機器學習應用,而且MATLAB的運算速度也很快。然而MATLAB的不足之處是軟體費用太高,單個軟體授權就要花費數千美元。雖然也有適合MATLAB的第三方外掛程式,但是沒有一個有影響力的大型開源項目。

Java和C等強型別程式設計語言也有矩陣數學庫,然而對於這些程式設計語言來說,最大的問題是即使完成簡單的操作也要編寫大量的代碼。程式員首先需要定義變數的類型,對於Java來說,每次封裝屬性時還需要實現getter和setter方法。另外還要記著實現子類,即使並不想使用子類,也必須實現子類方法。為了完成一個簡單的工作,我們必須花費大量時間編寫了很多無用冗長的代碼。Python語言則與Java和C完全不同,它清晰簡練,而且易於理解,即使不是編程人員也能夠理解程式的含義,而Java和C對於非編程人員則像天書一樣難於理解。

所有人在小學二年級已經學會了寫作,然而大多數人必須從事其他更重要的工作。

——鮑比·奈特

也許某一天,我們可以在這句話中將“寫作”替代為“編寫代碼”,雖然有些人對於編寫代碼高度興趣,但是對於大多數人來說,編程僅是完成其他任務的工具而已。Python語言是進階程式設計語言,我們可以花費更多的時間處理資料的內在含義,而無須花費太多精力解決電腦如何得到資料結果。Python語言使得我們很容易表達自己的目的。

Python語言的缺點

Python語言唯一的不足是效能問題。Python程式啟動並執行效率不如Java或者C代碼高,但是我們可以使用Python調用C編譯的代碼。這樣,我們就可以同時利用C和Python的優點,逐步地開發機器學習應用程式。我們可以首先使用Python編寫實驗程式,如果進一步想要在產品中實現機器學習,轉換成C代碼也不困難。如果程式是按照模組化原則組織的,我們可以先構造可啟動並執行Python程式,然後再逐步使用C代碼替換核心代碼以改進程式的效能。C++ Boost庫就適合完成這個任務,其他類似於Cython和PyPy的工具也可以編寫強型別的Python代碼,改進一般Python程式的效能。

如果程式的演算法或者思想有缺陷,則無論程式的效能如何,都無法得到正確的結果。如果解決問題的思想存在問題,那麼單純通過提高程式的運行效率,擴充使用者規模都無法解決這個核心問題。從這個角度來看,Python快速實現系統的優勢就更加明顯了,我們可以快速地檢驗演算法或者思想是否正確,如果需要,再進一步最佳化代碼。

註:本文摘自即將在6月10號左右上市的《機器學習實戰》

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.