標籤:
一、本課程是怎麼樣的一門課程(全面介紹)
1.1、課程的背景 “大資料”作為時下最火熱的IT行業的詞彙,隨之而來的資料倉儲、資料分析、資料採礦等等圍繞大資料的商業價值的利用逐漸成為行業人士爭相追捧的利潤焦點。 “大資料” 其實離我們的生活並不遙遠,大到微博的海量使用者資訊,小到一個小區超市的月銷售清單,都蘊含著大量潛在的商業價值。正是由於資料量的快速增長,並且已經遠遠超過了人們的資料分析能力。因此,科學、商用等領域都迫切需要智能化、自動化的資料分析工具。在這樣的背景下,資料採礦技術應用而生,使得海量資料的分析變得易如反掌。
1.2、課程內容簡介 本課程名為深入淺出資料採礦技術。所謂“深入”,指得是從資料採礦的原理與經典演算法入手。其一是要瞭解演算法,知道什麼情境應當應用什麼樣的方法;其二是學習演算法的經典思想,可以將它應用到其他的實際項目之中;其三是理解演算法,讓資料採礦的演算法能夠應用到您的項目開發之中去。所謂“淺出”,指得是將資料採礦演算法的應用落實到實際的應用中。課程會通過三個不同的方面來講解演算法的應用:一是微軟公司的SQL Server與Excel等工具實現的資料採礦;二是著名開源演算法的資料採礦,如Weka、KNIMA、Tanagra等開源工具;三是利用C#語言做示範來完成資料採礦演算法的實現。 根據實際的引用情境,資料採礦技術通常分為分類器、關聯分析、聚類演算法等三大類別。本課程主要介紹這三大演算法的經典思想以及部分著名的實現形式,並結合一些商務分析工具、開源工具或編程等方式來講解具體的應用方法。
1.3、課程大綱
1) 資料採礦概述與資料 本章講解了資料採礦技術的起源、應用情境以及基本的處理方法,並對於資料集、資料等基本的概念做了闡釋。
2) 可視化與多維資料分析(實踐課) 本章講解了資料視覺效果的基本方法,並分別示範了Excel樞紐分析表與SQL Server Analysis Service對於多維資料的可視化處理。(OLAP)
3) 分類器與決策樹 本章講解了分類器的基本概念與應用方法,並具體分析了分類器經典演算法之一決策樹的實現方法。
4) 其他分類器(上) 本章講解了另外兩種經典的分類器演算法:基於規則的分類器與基於距離的分類器。
5) 其他分類器(下) 本章講解了其他一些常見的分類器演算法,如基於距離的分類器的改良演算法、貝葉斯分類器、人工神經網路、支援向量機與組合方法等。
6) 決策樹的應用(實踐課) 本章示範了利用Weka Explorer、KNIME、Tanagra等開源工具進行的資料採礦處理。示範中對比了幾類資料採礦演算法,如Cart決策樹、C4.5決策樹、KNIME決策樹、簡單貝葉斯分類、組合方法(裝袋)、人工神經網路、基於規則的分類等。
7) 關聯分析 本章講解了關聯分析的常見演算法,即Apriori演算法與FP增長演算法。
8) 購物車資料分析(實踐課) 本章主要示範了利用微軟的解決方案來進行購物車資料的關聯分析,包括SQL Service Analysis Service的關聯分析與Excel結合SSAS增益集等方法。最後還利用Weka KnowledgeFlow工具來進行關聯分析,以便對比第六章的實踐。
9) 聚類演算法 本章講解了聚類演算法的基本原理與常見演算法,包含K均值演算法、層次聚類、基於密度的聚類演算法。
10) 聚類演算法C#原始碼實現(實踐課) 本章示範如何通過C#原始碼實現聚類演算法。
1.5、講師介紹 艾倫:世界500強頂級企業2年雲端運算工作經驗,擁有多年的開發經曆,擅長SQL Server資料庫並對資料處理有一定的研究,同時也有許多C/C++、C#、Jquery等網頁與案頭應用開發經驗。
二、為什麼需要這麼套課程?
2.1、企業需要什嗎? 資料採礦是一門比較新的技術,而資料採礦的需求並沒有完全的挖掘出來。在這樣的情形下,我們依然看到很多企業對這樣的新技術有著強烈的需求。(說明:以下企業需求職位均來自於51job.) 職位1、資料庫工程師 職位2、軟體開發工程師 職位3、市場分析員 更多企業招聘資訊請參考:www.51job.com
2.2、課程學習目標(我們提供什嗎?) 目標一. 可以讓學員瞭解與理解主要的資料採礦技術。 目標二. 可以讓學員迅速掌握各類資料採礦技術的應用情境。 目標三. 可以讓學員迅速掌握常見的資料採礦工具的使用方法。 目標四. 可以讓有一定基礎的學員對資料採礦的代碼實現入門。
2.3、課程特色 特點一、講師講求深入淺出,從理論、原理出現但是會迴歸到實際的應用。既照顧到希望提高理解與認識的學員,也照顧到關注實踐應用的學員。 特點二、實踐應用各有側重,會從幾種不同風格的軟體或工具入手來示範。如主流軟體公司的資料採礦產品(微軟公司的SQL Service Analysis Service)、開源軟體與工具(Weka、KNIME、Tanagra)以及挖掘演算法通過C#代碼的實現。充分照顧到學員對於應用軟體的偏好。 特點三、學習的過程中理論和實踐相結合,案例資料具備一定的代表性。並且課程提供所有的案例資料供學員自行修改和調試,以鞏固加深學習效果
2.4、課程亮點 亮點一、資料採礦本身就是前沿的技術,中文的教材、課程數量非常少,如此的課程在國內也不常見。 亮點二、理論與實戰相結合,深入淺出。即照顧到基礎學員,又照顧到有一定經驗的學員,即講解細緻,又一針見血,對技術絕不含糊。 亮點三、代碼的實現是一行一行手工敲入,手把手一步步帶領學員從入門到精通。 亮點四、實踐示範涉及到的軟體、工具數目眾多,照顧不同使用習慣的學員。 亮點五、整個課程雖短,但“麻雀雖小,五髒倶全”。講解過程節奏緊湊且內容充實。
3.課程真心不錯,我可以學嗎? 本課程會涉及到不少資料採礦的演算法。為了更好地理解演算法,建議學員可以有一定的基本演算法的基礎。除了SQL Service Analysis Service的應用實踐,大部分的示範都避免了使用資料庫來匯入資料,因此對於資料庫的知識沒有特別要求。若學員希望理解最後一章的代碼實現,需要具備C#的基本知識。 1、 學習基本演算法在Java的實現,推薦您學習 http://www. ibeifeng.com/goods.php?id=329 2、 學習基本演算法在C#的實現,推薦您學習 http://www .ibeifeng.com/goods.php?id=69 3、 學習C#的基本知識,推薦您學習 http://www. ibeifeng.com/goods.php?id=7
4.我該怎麼學,如何才能學好這門課程,給些建議。 4.1、時間上的安排建議 本課程共10講,由於內容比較緊湊,建議每天一講,深入理解課程內容。 4.2、學習要求 建議按照課程進度仔細觀看學習,並利用課程的測試資料在相應的軟體或工具中自己實踐一遍。(由於著作權原因,Excel、SQL Server與Visual Studio未提供,但其他開源軟體均提供了) 如果您有基礎,建議學習演算法後可以嘗試利用代碼實現演算法,並學會舉一反三 4.3、講師建議(講師給學員的建議) 建議: 1.最好看完視頻之後,拋開視頻,仔細想想每個演算法的原理與思想;若記憶不深刻,可以回過頭看再看下視頻,如此反覆,達到真正理解和熟練掌握的目的。 2.對於項目實戰部分,一定要自己親自動手做一遍,不要聽完就結束。 3.很多知識在開源社區中都有不同的見解,要學會使用搜尋引擎,多逛逛相關社區。 4.最後祝您學有所成。
5.學完這門課程後能做什嗎? 學會該課程後,嘗試著問自己幾個問題: 1. 在您的生活中、工作中是否有尚未開發的資料? 2. 那些尚未開發的資料與資料採礦哪一個模型能夠匹配? 3. 能否嘗試使用資料採礦的方法來發現一些潛在的規律? 本課程是針對資料、資料分析與挖掘方向,可以協助您學會資料採礦的思想,並不限定於某個特定的專業技術。掌握該技術後,一定能使您對於自己的業務資料的分析方法與能力更上一層樓。
6. 學員常見問題: 常見問題一:學習該教程會使用哪些軟體?軟體有沒有隨教程提供,沒有提供的話,軟體的的,及他們所使用的版本如何? 講師回答:本課程的軟體分為兩個部分: 第一個部分是微軟公司的Office Excel、SQL Server Analysis Service(SSAS)、Visual Studio。Visual Studio主要用於示範層次聚類演算法的C#實現,並不限制於特定的版本。Excel與SQL Server結合所需的版本如下: Excel 2007與SQL Server 2005 Excel 2007與SQL Server 2008 Excel 2010與SQL Server 2012 第二部分是一些開源軟體與工具,課程中會提供工具下載的連結。 常見問題二:學這個課程需要什麼基礎? 講師回答:適合對資料分析有興趣的學員。建議對基本演算法、資料庫等知識有一定瞭解。開源軟體與工具介面為英文,主要以單詞為主,對英文沒有特別要求。 常見問題三:這種技術一般可用在什麼場合? 講師回答:本資料是資料分析領域的一個技術點,不是一個特定的工具。首先,資料分析與挖掘的思想可以借鑒到生活中或者工作中的任意資料分析情境;其次,分析與挖掘的方法可以廣泛用於市場定位、客戶關係分析、項目開發等領域。掌握它後可以讓你對資料的把控能力更得心應手,前(錢)途無限。 常見問題四:學完這項技術可以從事的工作崗位有哪些? 講師回答:越來越多的企業開始進入了大資料的潮流。主要的職位是資料分析專員與資料採礦工程師,但是很多工作崗位都將資料採礦作為選拔人才的加分項。相信未來資料採礦的重要性會隨著互連網、雲端運算的發展進一步地增加。 可以從事的崗位非常多:如:資料庫工程師、軟體開發工程師、市場分析專員
玩轉大資料:深入淺出大資料採礦技術(Apriori演算法、Tanagra工具、決策樹)