大資料時代的精準資料採礦——使用R語言

來源:互聯網
上載者:User

標籤:

 

 

老師簡介:

      Gino老師,即將步入不惑之年,早年獲得名校數學與應用數學專業學士和統計學專業碩士,有海外學習和工作的經曆,近二十年來一直進行著資料分析的理論和實踐,數學、統計和電腦功底強悍。

      曾在某一世界500強公司核心部門擔任進階主管負責資料建模和分析工作,在實踐中攻克統計建模和資料分析難題無數,資料處理與分析科學精準,在實際應用中取得良好的效果。

     Gino老師擔任資料分析培訓師多年,探索出一套以執行個體講解帶動統計原理理解和軟體操作熟悉的方法,授課的學生能迅速理解統計原理並使用統計軟體獨立開展資料分析。

     Gino老師先後使用過多種電腦語言或軟體,最終選用R作為統計分析的利器,歎服其強大的統計計量功能,每日愛不釋手,在R的使用上具有豐富的實戰經驗。

     他曾經在人大經濟論壇多次應邀講授R語言(基礎和進階),將理論和實踐很好地結合在一起,協助廣大學員掌握了軟體、統計和計量原理和實踐方法,好評如潮。

 

課程簡介:

      本課程結合講師的學習和工作經驗,把R語言和資料採礦的基本知識和重點痛點很好的結合,注重學以致用,按照由深入淺的方式,層層推進使得學員拾階而上的逐級掌握相關內容。

      課程內容涵蓋了R語言和資料採礦的精華,從大綱來看,無論是流行的資料採礦方法,還是前沿的演算法均有所涉及,課程中提供了大量豐富的案例,這些案例,集合了互連網、市場營銷、金融保險等領域的資料採礦執行個體,無疑對學習和工作有極大的參考和指導意義。

 

課程特色:

      1. 本課程盡量避開數學公式,按照“講清思想方法原理—結合具體案例—R語言實現細節”思路,讓即使是幾乎沒有什麼基礎的學員,掌握R語言資料採礦的基本思路和模式,打下未來深入的良好基礎,能在工作和學習中結合具體問題立馬上手操作解決;

      2. 課程注重學練結合的方法,會採取小組討論的方法,充分調動大家思考的積極性,在做中掌握相關知識和技能;

      3. 課程緊緊抓住R語言和資料採礦的重點和痛點,詳細的分析和講解,在理解難、容易出錯的地方反覆提醒,以便學員在課後容易的進行自己複習和相關拓展。

 

目標人群:

     對使用R語言進行資料採礦感興趣者,尤其是希望獲得R語言和資料採礦基礎和思想,想在實際中快速使用R語言進行資料採礦以解決問題的在校學生、在職工作者。

 

教學大綱:

第一講:R語言精要

本著循序漸進而又覆蓋R語言重要而有用的基本內容原則,本講從R語言入門開始,以前期的資料處理為核心,以實際案例為載體,內容包括R語言的向量、資料框、矩陣運算、缺失值和零值的處理、特別注重用R語言建構函式編程解決實際問題,詳細介紹強大的資料清洗整理plyr、zoo、car等常用包和強大的作圖ggplot2包,為使用R語言進行資料採礦打下紮實的工具基礎。

主要案例:

案例1:如何用R語言plyr等包合并、排序、分析資料並編製香農-威納指數;

案例2:如何用R語言編程同時實現幾十個高難度資料分析可視化圖片的jpeg格式輸出;

案例3:如何使用R語言進行分層或者整群抽樣構建訓練集與測試集;

案例4:使用ggplot2畫出各種複雜的圖形。

 

第二講:Logistic迴歸與商業大資料建模

Logistic迴歸是商業建模的常用重要資料採礦方法,本講要講清楚Logistic迴歸的建模原理、與多元線性模型的區別、R語言實現過程及迴歸診斷注意事項、預測方法和結果解釋,讓學員徹底地掌握Logistic迴歸解決問題的R語言方法。

主要案例:

案例1:利用Logistic迴歸協助商業銀行完成對客戶提前還貸款情況的預測;

案例2:利用Logistic迴歸協助醫生對病人選擇最佳治療方案;

案例3:利用Logistic迴歸協助廠家分析顧客做出購買決策的重要因素;

案例4:利用Logistic迴歸協助壽險公司進行勘探精準電話營銷;

案例5:利用Logistic迴歸協助商業銀行完成對客戶的信用評分;

案例6:利用Logistic迴歸協助公司分析客戶流失的原因並做好預測。

 

第三講:關聯規則和R語言實現

關聯規則(著名的“啤酒和尿布”)是資料採礦的基礎和核心技術之一,本講將著重圍繞經典的Apriori演算法和eclat演算法,闡明關聯規則的支援、置信和提升程度與控制,使用R語言快速完成關聯規則分析。

主要案例:

案例1:使用R語言關聯規則方法協助各個超市實現商品的最佳搭售方案方案(即“購物籃”分析);

案例2:泰坦尼克號乘客倖存的關聯規則分析;

案例3:提高個人收入的關聯分析。

 

第四講:決策樹(迴歸樹)分析和R語言實現

決策樹是資料採礦的經典方法,其原理容易被理解。本講主要講授兩種最為普遍的決策樹演算法:CART和C4.5演算法,使用rpart和J48函數進行R語言分析。

主要案例:

案例1:對汽車耗油量進行決策樹分析並完成相關目標變數的預測;

案例2:使用決策樹協助電信局判斷和預測客戶辦理寬頻業務。

 

第五講:機器整合學習的Bagging和AdaBoost演算法

這兩種方法將許多分類器的預測結果進行匯總分析,從而達到顯著提升分類效果。本講介紹這2種演算法的思想,在R語言中構造訓練集和測試集進一步進行分析。

主要案例:

案例1:用R語言的Bagging和AdaBoost進行商業銀行定期存款的分析和預測;

案例2:用R語言的Bagging和AdaBoost識別有毒蘑菇。

 

第六講:R語言隨機森林(RandomForest)演算法

在機器學習中,隨機森林是一個包含多個決策樹的分類器,本講講清隨機森林方法的原理,以致在實際中協助學員判斷適合進行隨機森林分析的情況,最終熟練掌握R語言隨機森林分析的方法。

主要案例:

案例1:對皮膚病進行隨機森林的分類和預測;

案例2:對酒的品質和種類進行分類和評價。

 

第七講:支援向量機和R語言的實現

本講將分析支援向量機的結構風險最小原理、間隔和核函數,從而協助學員深刻理解支援向量機的思想和演算法,以及使用中注意的問題,從而協助學員靈活地應用於各個領域。

主要案例:

案例1:對著名的鳶尾花資料進行支援向量機的分析;

案例2:使用支援向量機識別有毒蘑菇;

案例3:使用支援向量機進行股票指數預測。

 

第八講:神經網路和R語言的實現

神經網路由大量的節點和輸出函數構成邏輯策略,本講介紹其原理,主要通過案例的方式講解R語言實現神經網路演算法的過程和注意的事項。

主要案例:

案例1:酒的品質和種類的神經網路的分析和預測;

案例2:公司財務預警建模。


第九講:交叉驗證比較各個模型

對於同一個資料,可能有很多模型來擬合,如何衡量和比較模型的精度呢?本講將介紹交叉驗證訓練集和測試集的方法來協助大家在實際中選取最佳模型進行擬合和預測。


第十講:使用R語言結合KNN演算法進行文本挖掘

文本挖掘,特別是對中文的文本挖掘日趨重要。本講介紹文本挖掘的原理和方法,協助大家使用R語言在大量的非結構化的資料中發現有價值的資訊,抽取潛在有用的資料,發現適合模式,實現可視化結果展示。

主要案例:

案例:使用R語言結合KNN演算法對網頁(Web)進行文本挖掘(含分詞、分類、可視化等)

 

大資料時代的精準資料採礦——使用R語言

相關文章

聯繫我們

該頁面正文內容均來源於網絡整理,並不代表阿里雲官方的觀點,該頁面所提到的產品和服務也與阿里云無關,如果該頁面內容對您造成了困擾,歡迎寫郵件給我們,收到郵件我們將在5個工作日內處理。

如果您發現本社區中有涉嫌抄襲的內容,歡迎發送郵件至: info-contact@alibabacloud.com 進行舉報並提供相關證據,工作人員會在 5 個工作天內聯絡您,一經查實,本站將立刻刪除涉嫌侵權內容。

A Free Trial That Lets You Build Big!

Start building with 50+ products and up to 12 months usage for Elastic Compute Service

  • Sales Support

    1 on 1 presale consultation

  • After-Sales Support

    24/7 Technical Support 6 Free Tickets per Quarter Faster Response

  • Alibaba Cloud offers highly flexible support services tailored to meet your exact needs.