標籤:技術 資源 use 裝置 net img 問題 技術分享 適應
後記轉載請標明出處
報告題目:機器學習:發展與未來
報告人:周志華
演講摘要:在過去二十年中,人類收集、儲存、傳輸、處理資料的能力取得了飛速發展,亟需能有效地對資料進行分析利用的電腦演算法。機器學習作為智能資料分析演算法的源泉,順應了大時代的這個迫切需求,因此自然地取得了巨大的發展、受到了廣泛關注。
機器學習是從人工智慧中產生的一個重要學科分支,是實現智能化的關鍵。它的經典定義是:利用經驗改善系統自身的效能。將經驗轉化為資料。隨著該領域的發展,目前主要研究智能資料分析的理論和演算法,並已成為智能資料分析技術的源泉之一。
文章篩選的故事:邀請專家閱讀少量的文章,專家將文章標記為“有關”或者“無關”,基於這個資訊建立一個分類模型,再根據這個模型來對其他的文章進行預測。
典型的機器學習的過程:先收集到資料,資料是表格的形式,每一行表示一個對象或一個執行個體,每一列刻畫了一個對象的一個屬性,其中有一列我們管它叫做類別標記。
我們對這些資料進行訓練得到模型。今後,當我們拿到一個我們沒有見過的資料的時候,我們知道它的輸入,把輸入輸入到這個模型,這個模型就會給你一個結果(比如西瓜好還是不好)。所以我們在現實生活中遇到的分類、推測這類問題都可以抽象出來。比較重要的是如何對資料進行學習來得到這個模型(使用學習演算法)。
深度學習
1、提升模型複雜度->提升學習能力
增加隱層神經元數目(模型寬度)增加函數個數
增加隱層數目(模型深度)增加了函數的個數同時增加了函數的層數:增加隱層數目比增加隱層神經元數目更加有效,不僅增加了擁有啟用函數的神經元數,還增加了啟用函數嵌套的層數。
2、提升模型複雜度->增加過擬合風險(因為模型過於複雜),增加計算開銷
過擬合風險解決可以使用大量訓練資料,複雜的模型使用強力計算裝置來計算
深度學習還需要訣竅。
未來機器學習可能的問題:難以適應環境變化、難以瞭解模型、難以擷取充足樣本、難以獲得專家級結果、難以避免資料泄漏。
此外,即便相同的資料,普通使用者也很難活得機器學習專家級效能。
關於未來的淺見:開放環境學習任務,魯棒性是關鍵。
提出了一個學件(learn ware)的概念
學件(learnware)=模型(model)+規約(specification)
已經由別人做了機器學習的應用了並且很樂意將自己的模型分享出來,放在一個平台。其他人可以在這個平台中尋找有沒有自己適用的模型。部分重用他人結果,用自己的資料去打磨這個模型。規約需要能夠給出模型的合適刻畫。而模型需要滿足:可重用,可演化,可瞭解。
可重用:學件的預訓練模型僅需要利用“少量資料”對其進行更新或增強即可用於新任務。
可演化:學件的預訓練模型應具備感知環境變化,並針對變化進行主動自適應調整的能力。
可瞭解:學件的模型應在一定程度上能被使用者瞭解(包括其目標、學得結果、資源要求、典型任務上的效能等),否則,將難以給出模型的功能規約,通過重用、演化後獲得的模型的有效性和正確性也難以保障。
機器學習小結:
1、深度學習可能會有冬天,它僅是機器學習的一種技術,更潮的技術總會出現。
2、機器學習不會有冬天:除非我們不再需要分析資料。
3、關於未來:
技術:能有效利用GPU等計算裝置
任務:開放環境機器學習任務(魯棒性是關鍵)
形態:從“演算法+資料”到“學件”(learn ware)
2016電腦大會後記——機器學習:發展與未來