《資料之魅:基於開源工具的資料分析》
基本資料
作者: (美)雅奈特(Janert, K. P.)
譯者: 黃權 陸昌輝 鄒雪梅 費柳鳳
出版社:清華大學出版社
ISBN:9787302290988
上架時間:2012-7-11
出版日期:2012 年7月
開本:16開
頁碼:1
版次:1-1
所屬分類: 電腦 > 電腦科學理論與基礎知識 > 數值計算 > 綜合 更多關於 》》》《資料之魅:基於開源工具的資料分析》
內容簡介
書籍
電腦書籍
《資料之魅:基於開源工具的資料分析》結合作者多年來從事資料分析工作的豐富經驗,闡述了資料分析所涉及的概念和方法。本書共四部分19 章,主題包括如何通過圖表來觀察資料,如何通過各種建模方法來分析資料,然後著重闡述如何進行資料採礦,最後強調資料分析在商業和金融等領域的實際應用。本書包含大量的類比過程及結果展示,並通過執行個體來闡述如何使用開源工具來進行資料分析。通過本書的閱讀,讀者可以清楚地瞭解這些方法的實際用法及用途。
《資料之魅:基於開源工具的資料分析》結構合理,通俗易懂,適合資料分析愛好者和從業者閱讀,也適合以科學計算為工具的科研人員參考。同時,本書還適用於電腦科學、數學、工程技術和其他相關專業本科或研究生的資料分析課程,是一本不錯的參考書。
目錄
《資料之魅:基於開源工具的資料分析》
第1 章導論1
資料分析1
本書內容2
關於講習班 3
關於數學4
需要具備的知識 6
本書不涉及的內容6
第ⅰ部分圖表:觀察資料
第2 章單一變數:形狀和
分布 11
資料點和抖動圖 12
長條圖和核密度估計 14
長條圖15
核密度估計 19
(選學)如何選擇最優頻寬 22
累積分布函數23
(選學)機率圖分布和qq 圖
分布的對比 25
秩序圖和上升圖 30
僅用於適當時機:匯總統計量
和盒鬚圖 33
匯總統計量 33
box-and-whisker 圖 36
(講習班)numpy 38
numpy 實踐 38
numpy 詳解 41
擴充閱讀 45
第3 章兩個變數:建立關係 47
散佈圖 47
克服雜訊:平滑 48
樣條 50
loess51
樣本 52
殘差 54
其他觀點及提醒55
對數圖 57
傾斜 61
線性迴歸以及諸如此類的方法 62
描述重要訊息 66
圖形分析與圖形示範68
(講習班)matplotlib 69
互動式使用matplotlib 70
案例學習:matplotlib 與
loess73
控制屬性 74
matplotlib 物件模型及結構 76
目錄xii
零碎知識 77
擴充閱讀 78
第4 章以時間為變數:
時序分析 79
樣本 79
任務 83
需求和現實 84
平滑處理 84
移動平均法 85
指數平滑法 86
不要忽視顯而易見的東西 90
相關函數 91
樣本 92
實現上的問題 93
(選學)過濾器和卷積 95
(講習班)scipy.signal 96
擴充閱讀 98
第5 章多變數:圖形的多變數
分析 99
假色圖100
概覽:多值圖 105
散佈圖矩陣105
共同作業圖表 107
變種.108
組成問題.110
組成的改變110
多維組成:樹形圖和
馬賽克圖112
新穎的曲線類型116
標識符116
平行座標圖117
互動式探索120
查詢和縮放121
串連和塗層121
大遊覽與投影尋蹤121
工具.122
(講習班)多變數圖形工具123
r 123
實驗工具124
python 的chaco 庫124
擴充閱讀.125
第6 章插曲:資料分析會話 127
資料分析會話127
(講習班)gnuplot 軟體136
擴充閱讀.138
第ⅱ部分分析:資料建模
第7 章推算和粗略計算141
推算的原理 142
估計大小143
建立關聯145
使用數字146
10 的冪146
小擾動147
對數.148
目錄xiii
更多樣本149
我所知道的一些常見事(物)
的相關數字151
這些數字是否足夠好? 151
準備工作:可行性和成本 153
完成之後:引用和
呈現數字154
(選學)進一步探索攝動理論和
誤差傳播 155
誤差傳播156
(講習班)gnu 科學庫(gsl)158
擴充閱讀 161
第8 章縮放參數模型.163
模型163
建模 164
模型的運用和誤用 164
參數的縮放 165
縮放參數165
樣本:維度參數 167
樣本:最佳化問題 169
樣本:成本模型 170
(選學)縮放參數與
量綱分析172
其他理論174
平均場近似 175
背景知識和其他樣本176
常見的時間演變方案 178
無限增長和衰減現象178
約束增長:邏輯斯諦方程.180
振蕩.181
案例學習:多少台伺服器才是
最好的? .182
為什麼要建模? 184
(講習班)sage.184
擴充閱讀.188
第9 章關於機率模型的討論 191
9.1 二項分布和伯努利實驗191
精確的結果192
利用伯努利實驗建立平均場
模型194
9.2 高斯分布和中心極限定理195
中心極限定理.195
中心項與尾項.197
為什麼高斯分布如此實用? 198
(選學)高斯積分.199
冪律分布和非常規統計學201
冪律分布的用法203
(選學)期望值為無限時的
分布204
接下來的研究.206
其他分布.206
幾何分布207
泊松分布207
對數常態分佈.209
特殊用途的分布211
目錄xiv
(選學)案例學習——隨時間變化的單
一訪問者數量 211
(講習班)冪律分布215
擴充閱讀 219
第10 章你真正需要瞭解的
經典統計學知識221
起源221
統計學的定義 223
從統計學角度解釋 226
樣本:公式測驗
vs 圖解法 229
控制實驗vs 觀察研究 230
實驗設計232
前景 234
(選學)貝葉斯統計——
另一種觀點 235
用頻率論來解釋機率235
用貝葉斯方法來理解機率 236
貝葉斯資料分析: 一個實際有
效的例子238
貝葉斯推理:總結與討論.241
(講習班)r 語言243
擴充閱讀.249
第11 章插敘:數學大搜捕——
大腳怪和最小二
乘等253
11.1 如何平均均值.253
辛普森(simpson)悖論.254
標準差.256
如何計算258
(選學)應該選擇哪一個259
(選學)標準誤差.259
最小二乘.260
統計參數估計.261
函數逼近263
擴充閱讀.264
第ⅲ部分計算:資料採礦
第12 章類比267
熱身問題 267
蒙特卡洛類比 270
組合問題270
獲得結果分布 272
優點和缺點275
重新採樣方法 276
拔靴法 277
拔靴法適用於哪些情況?.278
拔靴變數280
(講習班)simpy 離散事件類比280
simpy 簡介281
最簡單的排隊過程282
(選學)排隊理論.285
運行simpy 類比288
小結290
目錄xv
擴充閱讀 291
第13 章找出簇293
簇由什麼組成? 293
一種不同的觀點296
距離計算和相似性計算 298
常見的距離和相似性
計算方法300
聚類方法 304
中心探索法305
樹形構造器307
鄰居生長器309
前期處理和後期處理 311
規模的正常化 311
類的屬性和評估 311
其他想法 314
具體案例:超市購物籃的
分析 316
提醒319
(講習班)pycluster 和c 聚類庫 320
擴充閱讀 324
第14 章一木見林:
找出重要屬性327
主成分分析法328
動機.328
(選學)理論330
解釋.333
計算.334
實用觀點335
雙標圖336
可視化技術337
多元尺度法338
網狀圖339
柯霍南圖.339
(講習班)用r 進行pca342
擴充閱讀.348
線性代數349
第15 章插曲:當資料不成
比例地增長時351
一個真實的故事353
一些建議.354
map/reduce 如何356
(講習班)產生排列357
擴充閱讀.358
第ⅳ部分應用:資料的使用
第16 章報表、商務智能和
儀表板361
商務智能 362
報表 364
企業指標和儀表板 369
關於指標計劃的建議370
資料的品質問題373
資料的可用性.373
資料的一致性.375
(講習班)berkeley db 和sqlite .376
目錄xvi
berkeley db 377
sqlite 379
擴充閱讀 381
第17 章金融計算與建模383
貨幣的時間價值384
一次性支付:未來值和
現值 384
多筆付款:複利 386
複利的計算技巧 387
概覽:現金串流分析和
淨現值 389
規劃成本和機會成本中的
不確定性 391
用賬戶的期望值來考慮
不確定性391
機會成本393
成本概念及貶值394
直接成本和間接成本394
固定成本和可變成本396
資本開支與運營成本397
是否應該加以關注? 398
這些就是全部嗎? 399
(講習班)報紙經銷商問題 400
(選學)精確解402
擴充閱讀 403
報紙經銷商問題 404
第18 章預測性分析.405
預測性分析的主題406
一些分類術語407
分類演算法.408
基於執行個體的分類和最近鄰
分類演算法409
貝葉斯分類器.409
迴歸.413
支援向量機414
決策樹和基於規則的
分類器416
其他分類演算法.418
流程419
整合方法:bagging 和
boosting 419
估計預測誤差.420
類不平衡問題.421
私家秘訣.423
統計學習的本質424
(講習班)自己編寫的兩個
分類器.426
擴充閱讀.431
第19 章結語:事實並非
現實433
附錄a 科學計算與資料分析的
編程環境435
附錄b 應用:微積分447
附錄c 使用資料485
索引499
本圖書資訊來源:中國互動出版網