大資料在教育中的應用 part2筆記

來源:互聯網
上載者:User

標籤:style   blog   http   io   ar   os   sp   on   資料   

K層交叉檢驗就是把原始的資料隨機分成K個部分。在這K個部分中,選擇一個作為測試資料,剩下的K-1個作為訓練資料。

交叉檢驗的過程實際上是把實驗重複做K次,每次實驗都從K個部分中選擇一個不同的部分作為測試資料(保證K個部分的資料都分別做過測試資料),剩下的K-1個當作訓練資料進行實驗,最後把得到的K個實驗結果平均。

 

http://www.ilovematlab.cn/thread-49143-1-1.html

交叉驗證(CrossValidation)方法思想簡介



以下簡稱交叉驗證(Cross Validation)為CV.CV是用來驗證分類器的效能一種統計分析方法,基本思想是把在某種意義下將未經處理資料(dataset)進行分組,一部分做為訓練集(train set),另一部分做為驗證集(validation set),首先用訓練集對分類器進行訓練,在利用驗證集來測試訓練得到的模型(model),以此來做為評價分類器的效能指標.常見CV的方法如下: 1).Hold-Out Method


將未經處理資料隨機分為兩組,一組做為訓練集,一組做為驗證集,利用訓練集訓練分類器,然後利用驗證集驗證模型,記錄最後的分類準確率為此Hold-OutMethod下分類器的效能指標.此種方法的好處的處理簡單,只需隨機把未經處理資料分為兩組即可,其實嚴格意義來說Hold-Out Method並不能算是CV,因為這種方法沒有達到交叉的思想,由於是隨機的將未經處理資料分組,所以最後驗證集分類準確率的高低與未經處理資料的分組有很大的關係,所以這種方法得到的結果其實並不具有說服性.

 

2).K-fold Cross Validation(記為K-CV)


將未經處理資料分成K組(一般是均分),將每個子集資料分別做一次驗證集,其餘的K-1組子集資料作為訓練集,這樣會得到K個模型,用這K個模型最終的驗證集的分類準確率的平均數作為此K-CV下分類器的效能指標.K一般大於等於2,實際操作時一般從3開始取,只有在未經處理資料集合資料量小的時候才會嘗試取2.K-CV可以有效避免過學習以及欠學習狀態的發生,最後得到的結果也比較具有說服性.

 

3).Leave-One-Out Cross Validation(記為LOO-CV)


如果設未經處理資料有N個樣本,那麼LOO-CV就是N-CV,即每個樣本單獨作為驗證集,其餘的N-1個樣本作為訓練集,所以LOO-CV會得到N個模型,用這N個模型最終的驗證集的分類準確率的平均數作為此下LOO-CV分類器的效能指標.相比於前面的K-CV,LOO-CV有兩個明顯的優點:


a.每一回合中幾乎所有的樣本皆用於訓練模型,因此最接近原始樣本的分布,這樣評估所得的結果比較可靠。


b.實驗過程中沒有隨機因素會影響實驗資料,確保實驗過程是可以被複製的。

但LOO-CV的缺點則是計算成本高,因為需要建立的模型數量與未經處理資料樣本數量相同,當未經處理資料樣本數量相當多時,LOO-CV在實作上便有困難幾乎就是不顯示,除非每次訓練分類器得到模型的速度很快,或是可以用並行化計算減少計算所需的時間.    如果你理解 k-fold cross validation的話,其實這個和它的意思是差不多的。k-fold,就是取整個樣本的1/k作為預測樣本,(k-1)/k作為訓練樣本。當用訓練樣本對資料作出模型後,再用預測樣本來預測。
leave-one-out就是把n-1個樣本作為訓練集,剩下一個樣本作為預測集。並且迴圈,使得每個樣本都作為一次預測集,然後計算交叉驗證的正確率。 http://blog.xuite.net/x5super/studyroom/61471385-%E4%B8%80%E7%AF%87%E5%BE%88%E6%A3%92%E7%9A%84%E6%B8%AC%E8%A9%A6%28%E5%9B%9E%E6%B8%AC%29%E6%8A%80%E8%A1%93%E6%96%87%E7%AB%A0  

大資料在教育中的應用 part2筆記

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.