国产精品一久久香蕉产线看/亚洲图区欧美/亚洲国产精品电影人久久网站/欧美日韩在线视频一区

歡迎光臨中圖網(wǎng) 請 | 注冊
> >
數(shù)據(jù)科學與大數(shù)據(jù)分析 數(shù)據(jù)的發(fā)現(xiàn) 分析 可視化與表示

包郵 數(shù)據(jù)科學與大數(shù)據(jù)分析 數(shù)據(jù)的發(fā)現(xiàn) 分析 可視化與表示

出版社:人民郵電出版社出版時間:2022-08-01
開本: 16開 頁數(shù): 356
中 圖 價:¥66.6(7.4折) 定價  ¥89.8 登錄后可看到會員價
加入購物車 收藏
開年大促, 全場包郵
?新疆、西藏除外
本類五星書更多>

數(shù)據(jù)科學與大數(shù)據(jù)分析 數(shù)據(jù)的發(fā)現(xiàn) 分析 可視化與表示 版權(quán)信息

數(shù)據(jù)科學與大數(shù)據(jù)分析 數(shù)據(jù)的發(fā)現(xiàn) 分析 可視化與表示 本書特色

數(shù)據(jù)科學和大數(shù)據(jù)分析是指利用數(shù)據(jù)的力量來發(fā)現(xiàn)新的見解。本書涵蓋了數(shù)據(jù)科學涉及的行為廣度以及所使用的方法和工具。本書內(nèi)容側(cè)重于任何行業(yè)和技術(shù)環(huán)境中都會用到的概念、原理和實際應用,并通過開源軟件來分析案例,以幫助讀者更好地理解。本書將幫助您:成為數(shù)據(jù)科學團隊中的一名貢獻者;部署結(jié)構(gòu)化的生命周期方法來分析數(shù)據(jù)問題;應用合適的分析技術(shù)和工具來分析大數(shù)據(jù);學習如何用數(shù)據(jù)來講一個動人的故事,以推動商業(yè)行為;備考EMC Proven Professional數(shù)據(jù)科學家認證。

數(shù)據(jù)科學與大數(shù)據(jù)分析 數(shù)據(jù)的發(fā)現(xiàn) 分析 可視化與表示 內(nèi)容簡介

數(shù)據(jù)科學與大數(shù)據(jù)分析在當前是炙手可熱的概念,關(guān)注的是如何通過分析海量數(shù)據(jù)來洞悉隱藏于數(shù)據(jù)背后的見解。本書是數(shù)據(jù)科學領(lǐng)域為數(shù)不多的實用性技術(shù)圖書,它通過詳細剖析數(shù)據(jù)分析生命周期的各個階段來講解用于發(fā)現(xiàn)、分析、可視化、表示數(shù)據(jù)的相關(guān)方法和技術(shù)。 《數(shù)據(jù)科學與大數(shù)據(jù)分析——數(shù)據(jù)的發(fā)現(xiàn) 分析 可視化與表示》總共分為12章,主要內(nèi)容包括大數(shù)據(jù)分析的簡單介紹,數(shù)據(jù)分析生命周期的各個階段,使用R語言進行基本的數(shù)據(jù)分析,以及**的分析理論和方法,主要涉及數(shù)據(jù)的聚類、關(guān)聯(lián)規(guī)則、回歸、分類、時間序列分析、文本分析等方法。此外,本書還涵蓋了用來進行**數(shù)據(jù)分析所使用的技術(shù)和工具,比如MapReduce和Hadoop、數(shù)據(jù)庫內(nèi)分析等。 《數(shù)據(jù)科學與大數(shù)據(jù)分析——數(shù)據(jù)的發(fā)現(xiàn) 分析 可視化與表示》內(nèi)容詳細,示例豐富,側(cè)重于理論與練習的結(jié)合,因此較適合對大數(shù)據(jù)分析、數(shù)據(jù)科學感興趣的人員閱讀,有志于成為數(shù)據(jù)科學家的讀者也可以從本書中獲益。

數(shù)據(jù)科學與大數(shù)據(jù)分析 數(shù)據(jù)的發(fā)現(xiàn) 分析 可視化與表示 目錄

第 1章 大數(shù)據(jù)分析介紹 1
1.1 大數(shù)據(jù)概述 2
1.1.1 數(shù)據(jù)結(jié)構(gòu) 4
1.1.2 數(shù)據(jù)存儲的分析視角 9
1.2 分析的實踐狀態(tài) 10
1.2.1 商業(yè)智能 VS 數(shù)據(jù)科學 11
1.2.2 當前分析架構(gòu) 12
1.2.3 大數(shù)據(jù)的驅(qū)動力 14
1.2.4 新的大數(shù)據(jù)生態(tài)系統(tǒng)和新的分析方法 15
1.3 新的大數(shù)據(jù)生態(tài)系統(tǒng)中的關(guān)鍵角色 17
1.4 大數(shù)據(jù)分析案例 20
1.5 總結(jié) 21
1.6 練習 21
參考書目 21
第 2章 數(shù)據(jù)分析生命周期 23
2.1 數(shù)據(jù)分析生命周期概述 24
2.1.1 一個成功分析項目的關(guān)鍵角色 24
2.1.2 數(shù)據(jù)分析生命周期的背景和概述 26
2.2 第 1階段:發(fā)現(xiàn) 28
2.2.1 學習業(yè)務(wù)領(lǐng)域 29
2.2.2 資源 29
2.2.3 設(shè)定問題 30
2.2.4 確定關(guān)鍵利益相關(guān)者 30
2.2.5 采訪分析發(fā)起人 31
2.2.6 形成初始假設(shè) 32
2.2.7 明確潛在數(shù)據(jù)源 32
2.3 第 2階段:數(shù)據(jù)準備 33
2.3.1 準備分析沙箱 34
2.3.2 執(zhí)行ETLT 35
2.3.3 研究數(shù)據(jù) 36
2.3.4 數(shù)據(jù)治理 37
2.3.5 調(diào)查和可視化 37
2.3.6 數(shù)據(jù)準備階段的常用工具 38
2.4 第3階段:模型規(guī)劃 39
2.4.1 數(shù)據(jù)探索和變量選擇 40
2.4.2 模型的選擇 41
2.4.3 模型設(shè)計階段的常用工具 42
2.5 第4階段:模型建立 42
2.5.1 模型構(gòu)建階段中的常用工具 44
2.6 第5階段:溝通結(jié)果 45
2.7 第6階段:實施 46
2.8 案例研究:全球創(chuàng)新網(wǎng)絡(luò)和分析(GINA) 49
2.8.1 第 1階段:發(fā)現(xiàn) 50
2.8.2 第 2階段:數(shù)據(jù)準備 51
2.8.3 第3階段:模型規(guī)劃 51
2.8.4 第4階段:模型建立 51
2.8.5 第5階段:溝通結(jié)果 53
2.8.6 第6階段:實施 54
2.9 總結(jié) 55
2.10 練習 55
參考書目 55
第3章 使用R進行基本數(shù)據(jù)分析 57
3.1 R簡介 58
3.1.1 R圖形用戶界面 61
3.1.2 數(shù)據(jù)導入和導出 63
3.1.3 屬性和數(shù)據(jù)類型 64
3.1.4 描述性統(tǒng)計(descriptive statistics) 72
3.2 探索性數(shù)據(jù)分析 73
3.2.1 在分析之前先可視化 74
3.2.2 臟數(shù)據(jù) 77
3.2.3 可視化單個變量 80
3.2.4 研究多個變量 83
3.2.5 對比數(shù)據(jù)探索和數(shù)據(jù)演示 90
3.3 用于評估的統(tǒng)計方法 92
3.3.1 假設(shè)檢驗 93
3.3.2 均值差異 94
3.3.3 Wilcoxon秩和檢驗 98
3.3.4 I型和II型錯誤 99
3.3.5 功效和抽樣大小 100
3.3.6 ANOVA 100
3.4 總結(jié) 104
3.5 練習 104
參考文獻 105
第4章 **分析理論與方法:聚類 107
4.1 聚類概述 108
4.2 k均值聚類 108
4.2.1 使用案例 109
4.2.2 方法概述 110
4.2.3 確定聚類簇的數(shù)量 112
4.2.4 診斷 117
4.2.5 選擇原因及注意事項 118
4.3 其他算法 122
4.4 總結(jié) 122
4.5 練習 123
參考書目 123
第5章 **分析理論與方法:關(guān)聯(lián)規(guī)則 124
5.1 概述 125
5.2 Apriori算法 127
5.3 評估候選規(guī)則 128
5.4 關(guān)聯(lián)規(guī)則的應用 129
5.5 雜貨店交易示例 130
5.5.1 雜貨店數(shù)據(jù)集 130
5.5.2 生成頻繁數(shù)據(jù)集 132
5.5.3 規(guī)則的生成和可視化 137
5.6 驗證和測試 143
5.7 診斷 143
5.8 總結(jié) 144
5.9 練習 144
參考書目 145
第6章 **分析理論與方法:回歸 147
6.1 線性回歸 148
6.1.1 用例 148
6.1.2 模型描述 149
6.1.3 診斷 158
6.2 邏輯回歸 163
6.2.1 用例 163
6.2.2 模型描述 163
6.2.3 診斷 165
6.3 選擇理由和注意事項 172
6.4 其他回歸模型 173
6.5 總結(jié) 173
6.6 練習 174
第7章 **分析理論與方法:分類 175
7.1 決策樹 176
7.1.1 決策樹概覽 177
7.1.2 通用算法 181
7.1.3 決策樹算法 185
7.1.4 評估決策樹 186
7.1.5 R中的決策樹 189
7.2 樸素貝葉斯 193
7.2.1 貝葉斯定理 194
7.2.2 樸素貝葉斯分類器 196
7.2.3 平滑 198
7.2.4 診斷 198
7.2.5 R中的樸素貝葉斯 199
7.3 分類器診斷 204
7.4 其他分類方法 208
7.5 總結(jié) 209
7.6 練習 210
參考書目 210
第8章 **分析理論與方法:時間序列分析 212
8.1 時間序列分析概述 213
8.1.1 Box-Jenkins方法 214
8.2 ARIMA模型 215
8.2.1 自相關(guān)函數(shù)(ACF) 215
8.2.2 自回歸模型 216
8.2.3 移動平均模型 218
8.2.4 ARMA和ARIMA模型 219
8.2.5 建立和評估ARIMA模型 222
8.2.6 選擇理由及注意事項 230
8.3 其他方法 230
8.4 總結(jié) 231
8.5 練習 231
第9章 **分析理論與方法:文本分析 232
9.1 文本分析步驟 234
9.2 一個文本分析的示例 235
9.3 收集原始數(shù)據(jù) 237
9.4 表示文本 240
9.5 詞頻-逆文檔頻率(TFIDF) 245
9.6 通過主題來分類文件 249
9.7 情感分析 253
9.8 獲得洞察力 258
9.9 總結(jié) 263
9.10 練習 263
參考書目 264
第 10章 **分析技術(shù)與工具:MapReduce和Hadoop 267
10.1 非結(jié)構(gòu)化數(shù)據(jù)分析 268
10.1.1 用例 268
10.1.2 MapReduce 270
10.1.3 Apache Hadoop 271
10.2 Hadoop生態(tài)系統(tǒng) 277
10.2.1 Pig 278
10.2.2 Hive 279
10.2.3 HBase 282
10.2.4 Mahout 290
10.3 NoSQL 292
10.4 總結(jié) 293
10.5 練習 294
參考書目 294
第 11章 **分析技術(shù)與工具:數(shù)據(jù)庫內(nèi)分析 297
11.1 SQL基本要素 298
11.1.1 連接 299
11.1.2 set運算符 301
11.1.3 grouping擴展 303
11.2 數(shù)據(jù)庫內(nèi)的文本分析 307
11.3 **SQL技術(shù) 311
11.3.1 窗口函數(shù) 311
11.3.2 用戶定義函數(shù)與聚合 315
11.3.3 排序聚合 318
11.3.4 MABlib 319
11.4 總結(jié) 323
11.5 練習 323
參考書目 323
第 12章 結(jié)尾 324
12.1 溝通和實施一個分析項目 325
12.2 創(chuàng)建**終可交付成果 327
12.2.1 為多個受眾群體創(chuàng)建核心材料 329
12.2.2 項目目標 330
12.2.3 主要發(fā)現(xiàn) 331
12.2.4 方法 333
12.2.5 模型描述 334
12.2.6 有數(shù)據(jù)支持的關(guān)鍵論點 335
12.2.7 模型細節(jié) 336
12.2.8 建議 337
12.2.9 關(guān)于**終演示文檔的額外提示 338
12.2.10 提供技術(shù)規(guī)范和代碼 339
12.3 數(shù)據(jù)可視化基礎(chǔ) 340
12.3.1 有數(shù)據(jù)支持的要點 341
12.3.2 圖的演進 342
12.3.3 通用表示方法 348
12.3.4 如何清理圖形 349
12.3.5 額外考慮 353
12.4 總結(jié) 355
12.5 練習 355
12.6 參考文獻與擴展閱讀 355
參考書目 356
展開全部

數(shù)據(jù)科學與大數(shù)據(jù)分析 數(shù)據(jù)的發(fā)現(xiàn) 分析 可視化與表示 作者簡介

作者簡介David Dietrich是EMC Education Services的數(shù)據(jù)科學教育團隊的負責人,他領(lǐng)導著大數(shù)據(jù)分析和數(shù)據(jù)科學相關(guān)的課程、策略和課程開發(fā)工作。他參與編寫了EMC數(shù)據(jù)科學課程的首門課程,以及兩門額外的EMC課程(以向領(lǐng)導和管理人員講授大數(shù)據(jù)和數(shù)據(jù)科學為主),而且還是本書的作者兼編輯。他在數(shù)據(jù)科學、數(shù)據(jù)隱私和云計算領(lǐng)域已經(jīng)申請了14項專利。David曾指導若干所大學開設(shè)數(shù)據(jù)分析相關(guān)的課程項目,而且還經(jīng)常在會議和行業(yè)活動中發(fā)表演講。他還是波士頓地區(qū)幾所大學的客座講師。他的作品已被精選到包括福布斯雜志、哈佛商業(yè)評論以及由美國馬薩諸塞州長Deval Patrick委托起草的2014 馬薩諸塞大數(shù)據(jù)報告等內(nèi)在的主流出版物中。David在分析和技術(shù)領(lǐng)域已經(jīng)浸淫了近20年。在其職業(yè)生涯中,他曾在多家財富500強公司工作過,出任多個與數(shù)據(jù)分析相關(guān)的職位,其中包括管理分析和運營團隊,提供分析咨詢服務(wù),管理用于規(guī)范美國銀行業(yè)的分析軟件產(chǎn)品線,以及開發(fā)軟件即服務(wù)(Software-as-a-Service)和Bl即服務(wù)(Bl-as-a-Service)的產(chǎn)品。此外,David還曾與美聯(lián)儲一起合作開發(fā)用于監(jiān)控房產(chǎn)抵押貸款的預測模型。Barry Heller是EMC Education Services的一名咨詢技術(shù)教育顧問。Barry是大數(shù)據(jù)和數(shù)據(jù)科學新興技術(shù)領(lǐng)域的課程開發(fā)人員和課程顧問。在此之前,Barry曾是一名顧問研究科學家,在EMC全面客戶體驗(Total Customer Experience)部門內(nèi)發(fā)起并領(lǐng)導了許多與數(shù)據(jù)分析相關(guān)的項目。在其EMC職業(yè)生涯的早期,他負責管理統(tǒng)計工程團隊,并負責企業(yè)資源企劃(ERP)實施中的數(shù)據(jù)倉庫工作。在加盟EMC之前,Barry在醫(yī)療診斷和技術(shù)公司擔任過可靠性工程功能(Reliability Engineering Functions)的管理和分析角色。在此期間,他將其數(shù)量分析技能應用到了客戶服務(wù)、工程、制造、銷售/營銷、金融和法律領(lǐng)域內(nèi)的無數(shù)商業(yè)應用中。他強調(diào)與客戶管理人員深入互動的重要性,他的許多成功案例不僅源自對分析的技術(shù)細節(jié)的關(guān)注,也源自針對分析結(jié)果會做出的決策的關(guān)注。Barry擁有羅徹斯特理工學院計算數(shù)學專業(yè)的本科學位,以及紐約州立大學新帕爾茲分校數(shù)學專業(yè)的碩士學位。Beibei Yang是EMC Education Services的一名技術(shù)教育顧問,在EMC負責開發(fā)若干與數(shù)據(jù)科學和大數(shù)據(jù)分析相關(guān)的公開課程。Bebei在IT行業(yè)有7年的從業(yè)經(jīng)驗。在加盟EMC之前,她在一家財富500強公司先后擔任過軟件工程師、系統(tǒng)管理員和網(wǎng)絡(luò)管理員等職位,并引入了多種提升效率和鼓勵合作的新技術(shù)。Beibei曾在國際會議上發(fā)表過學術(shù)論文,并申請了多項專利。她在馬薩諸塞大學盧維爾分校獲得了計算機科學專業(yè)的博士學位。她專注于自然語言處理和數(shù)據(jù)挖掘,尤其是使用各種工具和技術(shù)來發(fā)現(xiàn)數(shù)據(jù)中隱藏的模式,以及用數(shù)據(jù)來講故事。數(shù)據(jù)科學和大數(shù)據(jù)分析是一個令人振奮的領(lǐng)域。在這個領(lǐng)域,數(shù)字信息的潛力可以很大程度地用來幫助做出明智的商業(yè)決策。我們相信,無論是短期、中期還是長期來看,這一領(lǐng)域都將會吸引越來越多有才華的學生和專業(yè)人士投身其中。譯者簡介曹逾,于新加坡國立大學獲得計算機博士學位,杰出大數(shù)據(jù)與機器學習專家,當前供職于EMC中國**研發(fā)集團**技術(shù)官辦公室,同時擔任EMC中國研究院數(shù)據(jù)科學實驗室主任,主要負責EMC大中華區(qū)大數(shù)據(jù)與數(shù)據(jù)科學方向的應用型研究以及創(chuàng)新解決方案研發(fā),同時也負責EMC在亞太特別是中國大陸地區(qū)的高校科研合作項目。曹博士在SIGMOD、VLDB、ICDE、VLDB Journal等國際會議和期刊發(fā)表論文20余篇,并多次受邀擔任國際會議和期刊審稿人,而且其相關(guān)研究成果在EMC內(nèi)部產(chǎn)品及解決方案中得以廣泛應用。曹博士擁有60余項美國及國際專利授權(quán)或申請劉文苗,現(xiàn)任EMC IT第三平臺項目經(jīng)理,對大數(shù)據(jù)、存儲系統(tǒng)、網(wǎng)絡(luò)系統(tǒng)以及文件系統(tǒng)具有一定研究,還具有國內(nèi)金融行業(yè)多年從業(yè)經(jīng)驗。劉先生曾經(jīng)參與過上海證券交易所新一代交易系統(tǒng)、海通期貨核心交易系統(tǒng)的設(shè)計與建設(shè)工作。李楓林,于上海交通大學獲得軟件工程碩士學位,曾在微軟中國公司擔任數(shù)據(jù)庫工程師,現(xiàn)就職于EMC中國研發(fā)中心,擔任Senior Social Engagement Manager一職,主要負責EMC中文技術(shù)社區(qū)的運營與后臺數(shù)據(jù)處理工作,近年來潛心鉆研數(shù)據(jù)存儲與大數(shù)據(jù)相關(guān)技術(shù),曾在EMC中文社區(qū)及社交媒體上發(fā)表多篇大數(shù)據(jù)技術(shù)相關(guān)的文章。主審人員簡介孫宇熙(Ricky Sun),EMC中國研究院院長,在EMC主要負責大數(shù)據(jù)、軟件定義的數(shù)據(jù)中心、云計算、超融合架構(gòu)、高性能計算、高效存儲等領(lǐng)域的研發(fā)、戰(zhàn)略合作與創(chuàng)新等工作。Ricky有在硅谷和國內(nèi)近20年的學習、工作、生活和創(chuàng)業(yè)的經(jīng)驗。Ricky既有在大型跨國公司(EMC、微軟、Yahoo!)的工作經(jīng)歷,也有過往成功的創(chuàng)業(yè)經(jīng)歷,曾于2001年在美國加州硅谷地區(qū)創(chuàng)立WL科技公司并成功帶領(lǐng)公司在2004年與香港Telewave集團合并。Ricky在混合云架構(gòu)、大數(shù)據(jù)快數(shù)據(jù)處理與分析、軟件定義存儲等領(lǐng)域有著多年的國際**的工作經(jīng)驗業(yè)界的影響力,并持有多項專利。Ricky在近年的專業(yè)著作有《程序員生存手冊:面試篇》、《軟件定義數(shù)據(jù)中心:技術(shù)與實踐》等。

商品評論(0條)
暫無評論……
書友推薦
編輯推薦
返回頂部
中圖網(wǎng)
在線客服