這個用來玩兒遊戲的演算法,是Google收購DeepMind的最大原因,Googledeepmind
大資料文摘字幕組作品
大家好呀!YouTube網紅小哥Siraj又來啦!
這次他將為我們講解Deep Q Learning——Google為了這個演算法收購了DeepMind。
點擊觀看視頻
時間長度9分鐘
帶有中文字幕
▼
這個演算法是幹什麼的呢?
答案就是:用來玩遊戲的!
2014年,Google花了5億多美元收購了位於倫敦的一家小公司:DeepMind。在此之前,DeepMind在2013年12月的NIPS大會上發表過一篇關於用深度強化學習來玩視頻遊戲的論文Playing Atari with Deep Reinforcement Learning,後續研究成果Human-level control through deep reinforcement learning在2015年2月上了《自然》的封面。再後來,深度學習+強化學習的玩法用在了圍棋上,於是我們有了阿法狗。
回頭看看讓DeepMind起家的Deep Q Learning,看上去只是一個非常簡單的軟體,一個專門為Atari視頻遊戲設計的Bot。可是,它被視為“通用智能”的第一次嘗試——論文顯示,這種演算法可以應用至50種不同的Atari遊戲,而且表現均超過人類水平。這就是深度Q學習器。
用超級瑪麗來舉個例子。我們擁有遊戲的視頻片段作為資料輸入,用馬里奧移動的方向來標註資料。這些訓練資料是連續的,新的視訊框架持續不斷地在遊戲世界產生,而我們想知道如何在這個世界中行動。
看上去,最好的辦法是通過嘗試。不斷嘗試,不斷犯錯,這樣我們就會瞭解我們與遊戲世界的最佳互動形式。
強化學習就是用來解決這類問題的。每當馬里奧做了一些有助於贏得遊戲的動作,正標籤就會出現,只是它們的出現有延遲。相比起把它們叫做標籤,更確切的叫法是“獎勵Reward”。
我們將整個遊戲過程表示為一個由狀態(State)、動作(Action)和獎勵(Reward)構成的序列,每個狀態的機率僅僅取決於前一個狀態和執行的動作,這叫做“馬爾科夫特性”,以俄羅斯數學家馬爾科夫命名。這個決策過程稱之為馬爾科夫過程。
如果把某個點之後一系列的獎勵表示成一個函數,這個函數值就代表遊戲結束時,可能出現的最佳得分。當在給定的狀態下執行給定的動作之後,此函數用于衡量該狀態下某個動作的品質(Quality),這就是Q函數,也叫魁地奇函數,啊不,品質函數。
當馬里奧決定執行哪個可能的動作時,他將選擇那些Q值最高的動作,計算Q值的過程,就是學習的過程。
那麼如何超越超級瑪麗這一個遊戲,將演算法推廣到其他遊戲中呢?戳上文視頻瞭解更多吧!
原視頻地址:(大資料文摘經授權漢化)
https://www.youtube.com/watch?v=79pmNdyxEGo
本期工作人員
翻譯:周楊 IrisW 高樹
校對:曉莉
時間軸+後期:龍牧雪
監製:龍牧雪
優質課程推薦|《機器學習工程師》
往期學員評價(by小白菜)
實戰班的課程內容非常貼近實際工作,將完整的機器學習項目流程,包括資料清洗、資料採樣、特徵工程、模型選擇-調優-融合、模型評價,完整地學習和實戰了N遍。課程中的項目涉及數值預測、自然語言處理、金融風控、推薦系統等,並且配備了線上實驗平台,是一門可以提升機器學習項目實戰能力的課程。
志願者介紹
回複“志願者”加入我們
往期精彩文章
點擊圖片閱讀
快上車!MIT的這門自動駕駛課,學完可以自己造一輛“無人車”(漢化視頻連載第一彈)
著作權聲明:本文為博主原創文章,未經博主允許不得轉載。