2017.03.07回顧 GBDT前面樹權重更大 python散佈圖__python

來源:互聯網
上載者:User

1、確定資料轉送格式

2、看了下通過率方面的問題

3、下午開始研究GBDT相關問題,我最開始的疑問,是不是前面的樹的權重大,對於我實際的資料集大多數樣本點是這樣的,少部分比較反常,但是我後來換了一個標準資料集,由於資料集太好了,損失函數直接就收斂到0了,所以每個點的預測值也是收斂到一個非常大非常小的值,在expit函數下,大概絕對值8,數值就很接近1或0了, 然後前面收斂曲線基本上接近於一條直線,看不出速率的變化, 我後來輸出了delta值,確實前面幾棵樹的delta值要大一些,而且對某些樣本點,delta值輸出出來非常漂亮,每一顆樹依次減小,最後開始收斂於某個值,之所以前面接近一條直線,主要是前面的樹權重並沒有大到肉眼可以很好地分辨,所以我誤以為沒有變化,看來不同的資料集,前面幾棵樹的變化程度大小自然也不一樣,有可能前面1棵樹當後面3棵樹,也有可能一棵樹當五棵樹, 所以我無法佐證我自己的猜測 ,所以我基本上初步可以得出結論,對於GBDT,前面的樹就是比後面的樹更重要,通過研究這一點,我還觀察到其他的一些現象,我自己的資料集上,收斂速度很慢,20000顆樹都很難收斂,收斂曲線倒是越來越平滑,在這個過程中,測試集上的AUC越來越低,顯然出現了過擬合。有時候某個點的值會存在拐點。

4、畫散佈圖

import matplotlib as pltplt.scatter(x,y)plt.xlabel('x')plt.ylabel('y')plt.show()

5、我後來研究了下把散佈圖擬合成一條曲線,沒找到現成的python模組



聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.