標籤:完成 通過 一個人 沒有 圖片 應該 很多 分享 learn
假如我們在開發一個機器學習系統,想試著改進一個機器學習系統的效能,我們應該如何決定接下來應該選擇哪條道路?
為瞭解釋這一問題,以預測樓價的學習例子。假如我們已經得到學習參數以後,要將我們的假設函數放到一組新的房屋樣本上進行測試,這個時候我們會發現在預測樓價時,產生了巨大的誤差,現在我們的問題是要想改進這個演算法接下來應該怎麼辦?
實際上我們可以想出很多種方法來改進演算法的效能,其中一種辦法是使用更多的訓練樣本。具體來講,通過電話調查、上門調查,擷取更多的不同的房屋出售資料。遺憾的是,好多人花費了大量時間在收集更多的訓練樣本上,他們總認為要是有兩倍甚至十倍數量的訓練資料那就一定會解決問題的。但有時候,獲得更多的訓練資料,實際上並沒有作用,接下來,我們將解釋原因。另一個方法,我們也許能想到的是嘗試選用更少的特徵集,比如X1,X2,X3等等。我們也許可以花一點時間,從這些特徵中仔細挑選一小部分來防止過擬合。或者也許需要用更多的特徵,假如目前的特徵集對你來講並不是很有協助,你希望從擷取更多特徵的角度來收集更多的資料。同樣的,你可以把這個問題擴充為一個很大的項目,比如使用電話調查,來得到更多的房屋案例,或者再進行土地測量來獲得更多有關這塊土地的資訊等等,因此這是一個複雜的問題。同樣的道理,我們非常希望在花費大量時間完成這些工作之前,我們就能知道其效果如何。我們也可以嘗試增加多項式特徵的方法,比如x1的平方,x2的平方,X1,X2的乘積。我們可以花很多時間來考慮這一方法,我們也可以考慮其他方法,減小或增大正則化參數lambda的值。
上面列出的6個原因,都可以擴充成一個六個月或更長時間的項目。遺憾的是,大多數人用來選擇這些方法的標準,是憑感覺,也就是說大多數人的選擇方法是,隨便從這些方法中選擇一種,比如他們會說“我們來多找點資料吧”,然後花上六個月的時間收集了一大堆資料,然後也許另一個人說,“讓我們來從這些房子的資料中多找點特徵吧”。很多人花了至少六個月時間來完成他們隨便選擇的一種方法,而在六個月或者更長時間後,他們很遺憾地發現自己選擇的是一條不歸路。
斯坦福大學公開課機器學習:advice for applying machine learning - deciding what to try next(設計機器學習系統時,怎樣確定最適合、最正確的方法)