-
>
決戰(zhàn)行測5000題(言語理解與表達(dá))
-
>
軟件性能測試.分析與調(diào)優(yōu)實踐之路
-
>
第一行代碼Android
-
>
深度學(xué)習(xí)
-
>
Unreal Engine 4藍(lán)圖完全學(xué)習(xí)教程
-
>
深入理解計算機系統(tǒng)-原書第3版
-
>
Word/Excel PPT 2013辦公應(yīng)用從入門到精通-(附贈1DVD.含語音視頻教學(xué)+辦公模板+PDF電子書)
PANDAS實戰(zhàn) 版權(quán)信息
- ISBN:9787302663539
- 條形碼:9787302663539 ; 978-7-302-66353-9
- 裝幀:平裝-膠訂
- 冊數(shù):暫無
- 重量:暫無
- 所屬分類:>>
PANDAS實戰(zhàn) 本書特色
在《Pandas實戰(zhàn)》中,你將看到經(jīng)驗豐富的數(shù)據(jù)科學(xué)家如何使用Pandas進行數(shù)據(jù)分析來解決各種問題。與其他Python書籍側(cè)重于理論并花太多時間在枯燥的技術(shù)解釋上不同,本書旨在讓你快速編寫干凈的代碼,通過動手實踐建立你的理解。
PANDAS實戰(zhàn) 內(nèi)容簡介
《Pandas實戰(zhàn)》詳細(xì)闡述了與Pandas數(shù)據(jù)分析相關(guān)的基本知識,主要包括數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)的輸入和輸出、Pandas數(shù)據(jù)類型、數(shù)據(jù)選擇、數(shù)據(jù)探索和轉(zhuǎn)換、理解數(shù)據(jù)可視化、數(shù)據(jù)建模、在Pandas中使用時間、探索時間序列、Pandas數(shù)據(jù)處理案例研究等內(nèi)容。此外,本書還提供了相應(yīng)的示例、代碼,以幫助讀者進一步理解相關(guān)方案的實現(xiàn)過程。 本書適合作為高等院校計算機及相關(guān)專業(yè)的教材和教學(xué)參考書,也可作為相關(guān)開發(fā)人員的自學(xué)用書和參考手冊。
PANDAS實戰(zhàn) 目錄
第1章 初識Pandas 3
1.1 Pandas世界介紹 3
1.2 探索Pandas的歷史和演變 4
1.3 Pandas的組件和應(yīng)用 4
1.4 了解Pandas的基本概念 5
1.4.1 Series對象 7
1.4.2 DataFrame對象 8
1.4.3 使用本地文件 11
1.4.4 讀取CSV文件 12
1.4.5 顯示數(shù)據(jù)快照 12
1.4.6 將數(shù)據(jù)寫入文件中 13
1.4.7 練習(xí)1.1—使用Pandas讀取和寫入數(shù)據(jù) 13
1.4.8 Pandas中的數(shù)據(jù)類型 15
1.4.9 數(shù)據(jù)選擇 18
1.4.10 數(shù)據(jù)轉(zhuǎn)換 20
1.4.11 數(shù)據(jù)可視化 20
1.4.12 時間序列數(shù)據(jù) 22
1.4.13 代碼優(yōu)化 24
1.4.14 實用工具函數(shù) 25
1.4.15 練習(xí)1.2—使用Pandas進行基本數(shù)值運算 29
1.4.16 數(shù)據(jù)建模 36
1.4.17 練習(xí)1.3—比較兩個DataFrame的數(shù)據(jù) 37
1.5 作業(yè)1.1—比較兩家商店的銷售數(shù)據(jù) 44
1.6 小結(jié) 45
第2章 數(shù)據(jù)結(jié)構(gòu) 47
2.1 數(shù)據(jù)結(jié)構(gòu)簡介 47
2.2 對數(shù)據(jù)結(jié)構(gòu)的需求 48
2.2.1 數(shù)據(jù)結(jié)構(gòu) 49
2.2.2 在Pandas中創(chuàng)建DataFrame 50
2.2.3 練習(xí)2.1—創(chuàng)建DataFrame 56
2.3 了解索引和列 58
2.3.1 練習(xí)2.2—讀取DataFrame并進行索引操作 65
2.3.2 使用列 69
2.4 使用Pandas Series 71
2.4.1 Series索引 72
2.4.2 練習(xí)2.3—從Series到DataFrame 76
2.4.3 使用時間作為索引 80
2.4.4 練習(xí)2.4—DataFrame索引 83
2.5 作業(yè)2.1—使用Pandas數(shù)據(jù)結(jié)構(gòu) 86
2.6 小結(jié) 87
第3章 數(shù)據(jù)的輸入和輸出 89
3.1 數(shù)據(jù)世界 89
3.2 探索數(shù)據(jù)源 93
3.2.1 文本文件和二進制文件 93
3.2.2 在線數(shù)據(jù)源 95
3.2.3 練習(xí)3.1—從網(wǎng)頁中讀取數(shù)據(jù) 97
3.3 基本格式 99
3.3.1 文本數(shù)據(jù) 99
3.3.2 練習(xí)3.2—文本字符編碼和數(shù)據(jù)分隔符 109
3.3.3 二進制數(shù)據(jù) 111
3.3.4 數(shù)據(jù)庫—SQL數(shù)據(jù) 112
3.3.5 sqlite3 113
3.4 其他文本格式 114
3.4.1 使用JSON 115
3.4.2 使用HTML/XML 118
3.4.3 使用XML數(shù)據(jù) 120
3.4.4 使用Excel 122
3.4.5 SAS數(shù)據(jù) 125
3.4.6 SPSS數(shù)據(jù) 126
3.4.7 Stata數(shù)據(jù) 127
3.4.8 HDF5數(shù)據(jù) 128
3.5 操作SQL數(shù)據(jù) 129
3.5.1 使用Pandas操作數(shù)據(jù)庫 129
3.5.2 練習(xí)3.3—使用SQL 134
3.5.3 為項目選擇格式 138
3.6 作業(yè)3.1—使用SQL數(shù)據(jù)進行Pandas分析 139
3.7 小結(jié) 140
第4章 Pandas數(shù)據(jù)類型 141
4.1 Pandas dtypes簡介 141
4.1.1 了解基礎(chǔ)數(shù)據(jù)類型 141
4.1.2 從一種類型轉(zhuǎn)換為另一種類型 145
4.1.3 練習(xí)4.1—基礎(chǔ)數(shù)據(jù)類型和轉(zhuǎn)換 149
4.2 缺失數(shù)據(jù)類型 156
4.2.1 缺失值的表示 156
4.2.2 可為空類型 157
4.2.3 練習(xí)4.2—將缺失數(shù)據(jù)轉(zhuǎn)換為不可為空的數(shù)據(jù)類型 159
4.3 作業(yè)4.1—通過轉(zhuǎn)換為適當(dāng)?shù)臄?shù)據(jù)類型來優(yōu)化內(nèi)存使用 163
4.4 按數(shù)據(jù)類型創(chuàng)建子集 164
4.4.1 字符串方法 164
4.4.2 使用category類型 167
4.4.3 使用dtype = datetime64[ns] 169
4.4.4 使用dtype = timedelta64[ns] 174
4.4.5 練習(xí)4.3—使用字符串方法處理文本數(shù)據(jù) 175
4.4.6 按數(shù)據(jù)的dtype在DataFrame中選擇數(shù)據(jù) 178
4.5 小結(jié) 181
第2篇 處 理 數(shù) 據(jù)
第5章 數(shù)據(jù)選擇—DataFrame 185
5.1 DataFrame簡介 185
5.1.1 Pandas DataFrame操作的關(guān)聯(lián)性 185
5.1.2 對數(shù)據(jù)選擇方法的需求 186
5.2 Pandas DataFrame中的數(shù)據(jù)選擇 187
5.2.1 索引及其形式 189
5.2.2 練習(xí)5.1—識別數(shù)據(jù)集中的行和列索引 191
5.2.3 保存索引或列 193
5.2.4 切片和索引方法 194
5.2.5 布爾索引 203
5.2.6 練習(xí)5.2—創(chuàng)建行和列的子集 204
5.2.7 使用標(biāo)簽作為索引和Pandas多級索引 206
5.2.8 從列中創(chuàng)建多級索引 211
5.3 作業(yè)5.1—從列中創(chuàng)建多級索引 214
5.4 括號和點表示法 216
5.4.1 括號表示法 216
5.4.2 點表示法 216
5.4.3 選擇整列 217
5.4.4 選擇一個行范圍 219
5.4.5 練習(xí)5.3—整數(shù)行號與標(biāo)簽 220
5.4.6 使用擴展索引 223
5.4.7 類型異常 226
5.5 使用括號或點表示法更改DataFrame值 228
5.5.1 使用括號表示法輕松修改數(shù)據(jù) 228
5.5.2 鏈?zhǔn)讲僮骺赡墚a(chǎn)生的問題及其解決方案 229
5.5.3 練習(xí)5.4—使用括號和點表示法選擇數(shù)據(jù) 232
5.6 小結(jié) 236
第6章 數(shù)據(jù)選擇—Series 237
6.1 Pandas Series介紹 237
6.2 Series索引 237
6.2.1 Pandas Series中的數(shù)據(jù)選擇 239
6.2.2 括號表示法、點表示法、Series.loc和Series.iloc 239
6.2.3 練習(xí)6.1—基本Series數(shù)據(jù)選擇 243
6.3 從DataFrame中創(chuàng)建Series或從Series中獲取DataFrame 246
6.3.1 從DataFrame中創(chuàng)建Series 246
6.3.2 從Series中獲取DataFrame 248
6.3.3 練習(xí)6.2—使用Series索引選擇值 251
6.4 作業(yè)6.1—Series數(shù)據(jù)選擇 255
6.5 了解基礎(chǔ)Python和Pandas數(shù)據(jù)選擇之間的差異 256
6.5.1 列表與Series訪問 256
6.5.2 DataFrame與字典訪問 257
6.6 作業(yè)6.2—DataFrame數(shù)據(jù)選擇 259
6.7 小結(jié) 261
第7章 數(shù)據(jù)探索和轉(zhuǎn)換 263
7.1 數(shù)據(jù)轉(zhuǎn)換簡介 263
7.2 處理混亂的數(shù)據(jù) 263
7.2.1 處理沒有列標(biāo)題的數(shù)據(jù) 264
7.2.2 一列中的多個值 269
7.2.3 行和列中的重復(fù)觀察值 274
7.2.4 練習(xí)7.1—處理格式混亂的地址 276
7.2.5 多個變量被存儲在一列中 280
7.2.6 具有相同結(jié)構(gòu)的多個DataFrame 284
7.2.7 練習(xí)7.2—按人口統(tǒng)計信息存儲銷售數(shù)據(jù) 287
7.3 處理缺失數(shù)據(jù) 293
7.3.1 關(guān)于缺失數(shù)據(jù) 293
7.3.2 缺失數(shù)據(jù)的處理策略 294
7.3.3 應(yīng)用刪除策略 294
7.3.4 應(yīng)用插補策略 296
7.4 匯總數(shù)據(jù) 299
7.4.1 分組和聚合 299
7.4.2 探索數(shù)據(jù)透視表 304
7.5 作業(yè)7.1—使用數(shù)據(jù)透視表進行數(shù)據(jù)分析 308
7.6 小結(jié) 310
第8章 理解數(shù)據(jù)可視化 311
8.1 數(shù)據(jù)可視化簡介 311
8.2 了解Pandas可視化的基礎(chǔ)知識 312
8.2.1 使用plot()函數(shù)繪圖 312
8.2.2 練習(xí)8.1—為泰坦尼克號數(shù)據(jù)集構(gòu)建直方圖 321
8.3 探索Matplotlib 324
8.4 可視化不同類型的數(shù)據(jù) 330
8.4.1 可視化數(shù)值數(shù)據(jù) 331
8.4.2 可視化分類數(shù)據(jù) 337
8.4.3 可視化統(tǒng)計數(shù)據(jù) 342
8.4.4 練習(xí)8.2—泰坦尼克號數(shù)據(jù)集的箱線圖 344
8.4.5 可視化多個數(shù)據(jù)圖 348
8.5 作業(yè)8.1—使用數(shù)據(jù)可視化進行探索性數(shù)據(jù)分析 350
8.6 小結(jié) 351
第3篇 數(shù) 據(jù) 建 模
第9章 數(shù)據(jù)建模—預(yù)處理 355
9.1 數(shù)據(jù)建模簡介 355
9.2 探索因變量和自變量 356
9.2.1 拆分訓(xùn)練集、驗證集和測試集 366
9.2.2 練習(xí)9.1—創(chuàng)建訓(xùn)練、驗證和測試數(shù)據(jù) 374
9.2.3 避免信息泄露 379
9.2.4 完整的模型驗證 380
9.3 了解數(shù)據(jù)縮放和歸一化 381
9.3.1 縮放數(shù)據(jù)的不同方法 381
9.3.2 自己縮放數(shù)據(jù) 382
9.3.3 *小值/*大值縮放 383
9.3.4 *小值/*大值縮放用例—神經(jīng)網(wǎng)絡(luò) 384
9.3.5 標(biāo)準(zhǔn)化—解決差異問題 386
9.3.6 轉(zhuǎn)換回真實單位 390
9.3.7 練習(xí)9.2—縮放和歸一化數(shù)據(jù) 390
9.4 作業(yè)9.1—數(shù)據(jù)拆分、縮放和建模 396
9.5 小結(jié) 397
第10章 數(shù)據(jù)建模—有關(guān)建模的基礎(chǔ)知識 399
10.1 數(shù)據(jù)建模簡介 399
10.2 了解建;A(chǔ)知識 400
10.2.1 建模工具 400
10.2.2 Pandas建模工具 400
10.2.3 其他重要的Pandas方法 410
10.2.4 窗口函數(shù) 411
10.2.5 窗口方法 414
10.2.6 平滑數(shù)據(jù) 417
10.3 預(yù)測時間序列的未來值 427
10.3.1 以原始日期為中心的平滑窗口 427
10.3.2 使用加權(quán)窗口平滑數(shù)據(jù) 430
10.3.3 練習(xí)10.1—平滑數(shù)據(jù)以發(fā)現(xiàn)模式 432
10.4 作業(yè)10.1—歸一化和平滑數(shù)據(jù) 436
10.5 小結(jié) 437
第11章 數(shù)據(jù)建模—回歸建模 439
11.1 回歸建模簡介 439
11.2 探索回歸建模 440
11.2.1 使用線性模型 446
11.2.2 練習(xí)11.1—線性回歸 450
11.2.3 非線性模型 455
11.3 模型診斷 455
11.3.1 比較預(yù)測值和實際值 455
11.3.2 使用Q-Q圖 457
11.3.3 練習(xí)11.2—多元回歸和非線性模型 462
11.4 作業(yè)11.1—實現(xiàn)多元回歸 472
11.5 小結(jié) 483
第4篇 其他Pandas用例
第12章 在Pandas中使用時間 487
12.1 時間序列簡介 487
12.2 Pandas datetime 488
12.2.1 datetime對象的屬性 489
12.2.2 練習(xí)12.1—使用datetime 491
12.2.3 創(chuàng)建和操作日期時間對象/時間序列 497
12.2.4 Pandas中的時間周期 500
12.2.5 Pandas時間感知對象中的信息 501
12.2.6 練習(xí)12.2—日期時間的數(shù)學(xué) 503
12.2.7 時間戳格式 507
12.2.8 日期時間本地化 509
12.2.9 時間戳限制 509
12.3 作業(yè)12.1—了解電力使用情況 510
12.4 日期時間數(shù)學(xué)運算 514
12.4.1 日期范圍 514
12.4.2 時間差值、偏移量和差異 516
12.4.3 日期偏移 518
12.4.4 練習(xí)12.3—時間差值和日期偏移 521
12.5 小結(jié) 525
第13章 探索時間序列 527
13.1 使用時間序列作為索引 527
13.1.1 時間序列周期/頻率 527
13.1.2 移動、滯后和轉(zhuǎn)換頻率 529
13.2 按時間重采樣、分組和聚合 530
13.2.1 使用重采樣方法 531
13.2.2 練習(xí)13.1—聚合和重采樣 535
13.2.3 使用滾動方法的窗口操作 539
13.3 作業(yè)13.1—創(chuàng)建時間序列模型 545
13.4 小結(jié) 550
第14章 Pandas數(shù)據(jù)處理案例研究 551
14.1 案例研究和數(shù)據(jù)集簡介 551
14.2 預(yù)處理步驟回顧 552
14.2.1 預(yù)處理德國氣象數(shù)據(jù) 555
14.2.2 練習(xí)14.1—預(yù)處理德國氣象數(shù)據(jù) 556
14.2.3 練習(xí)14.2—合并DataFrame和重命名變量 560
14.2.4 練習(xí)14.3—插補數(shù)據(jù)并回答問題 563
14.2.5 練習(xí)14.4—使用數(shù)據(jù)可視化來回答問題 566
14.2.6 練習(xí)14.5—使用數(shù)據(jù)可視化來回答問題 573
14.2.7 練習(xí)14.6—分析公交車軌跡數(shù)據(jù) 576
14.3 作業(yè)14.1—分析空氣質(zhì)量數(shù)據(jù) 584
14.4 小結(jié) 585
附錄A 作業(yè)答案 587
作業(yè)1.1答案 587
作業(yè)2.1答案 590
作業(yè)3.1答案 592
作業(yè)4.1答案 594
作業(yè)5.1答案 599
作業(yè)6.1答案 601
作業(yè)6.2答案 604
作業(yè)7.1答案 607
作業(yè)8.1答案 610
作業(yè)9.1答案 616
作業(yè)10.1答案 619
作業(yè)11.1答案 626
作業(yè)12.1答案 641
作業(yè)13.1答案 648
作業(yè)14.1答案 654 ·XVI·
Pandas實戰(zhàn)
·XVII·
目 錄
PANDAS實戰(zhàn) 作者簡介
布萊恩·貝特曼擁有超過35年的多個行業(yè)的工作經(jīng)驗,從政府研發(fā)機構(gòu)到初創(chuàng)企業(yè)再到價值10億美元的上市公司,他都有任職經(jīng)歷。他的經(jīng)驗側(cè)重于分析,包括機器學(xué)習(xí)和預(yù)測。他的實踐能力包括Python和R編碼、Keras/TensorFlow以及AWS和Azure機器學(xué)習(xí)服務(wù)。作為機器學(xué)習(xí)顧問,他開發(fā)并部署了工業(yè)中實際的機器學(xué)習(xí)模型。
- >
名家?guī)阕x魯迅:朝花夕拾
- >
新文學(xué)天穹兩巨星--魯迅與胡適/紅燭學(xué)術(shù)叢書(紅燭學(xué)術(shù)叢書)
- >
我與地壇
- >
自卑與超越
- >
大紅狗在馬戲團-大紅狗克里弗-助人
- >
企鵝口袋書系列·偉大的思想20:論自然選擇(英漢雙語)
- >
伯納黛特,你要去哪(2021新版)
- >
中國人在烏蘇里邊疆區(qū):歷史與人類學(xué)概述