離線和實時大數(shù)據(jù)開發(fā)實戰(zhàn)pdf
高清完整版- 軟件大?。?span itemprop="fileSize">71.23 MB
- 軟件語言:中文
- 軟件類型:國產(chǎn)軟件 / 數(shù)據(jù)庫類
- 軟件授權(quán): 免費軟件
- 更新時間:2019-06-18 09:41:55
- 軟件等級:
- 軟件廠商: -
- 應(yīng)用平臺:WinXP, Win7, Win8, Win10
- 軟件官網(wǎng): 暫無
相關(guān)軟件
樅陽扶貧大數(shù)據(jù)平臺v1.0 安卓版
23.00 MB/中文/10.0
都市摩托車駕駛游戲v300.1.0.3018 安卓版
85.40 MB/中文/5.0
大數(shù)據(jù)修仙v1.0.0 安卓版
12.08 MB/中文/10.0
大數(shù)據(jù)修真v4.8.1 安卓版
152.08 MB/中文/10.0
大數(shù)據(jù)修仙內(nèi)購破解版v1.0.0 安卓版
12.08 MB/中文/10.0
軟件介紹人氣軟件精品推薦相關(guān)文章網(wǎng)友評論下載地址
離線和實時大數(shù)據(jù)開發(fā)實戰(zhàn)pdf高清完整版是專門為講述大數(shù)據(jù)開發(fā)以及實戰(zhàn)的書籍,在這里不僅有數(shù)據(jù)的應(yīng)用,以及數(shù)據(jù)分析、運維的學(xué)習(xí),還有相關(guān)數(shù)據(jù)平臺大圖,詳細講解離線數(shù)據(jù)的技術(shù),通過學(xué)習(xí)本書,獲得更多專業(yè)的技能,歡迎有需要的用戶來IT貓撲下載!
關(guān)于本書
本書分為三篇。第壹篇:從整體上給出數(shù)據(jù)大圖和數(shù)據(jù)平臺大圖,主要介紹數(shù)據(jù)的主要流程、各個流程的關(guān)鍵技術(shù)、數(shù)據(jù)的主要從業(yè)者及他們的職責(zé)等;數(shù)據(jù)平臺大圖分離線和實時分別給出數(shù)據(jù)平臺架構(gòu)、關(guān)鍵數(shù)據(jù)概念和技術(shù)等;第二篇:介紹離線數(shù)據(jù)開發(fā)的主要技術(shù),包含Hadoop、Hive、維度建模等,另外此部分還將綜合上述各種離線技術(shù)給出離線數(shù)據(jù)處理實戰(zhàn);第三篇:集中介紹實時數(shù)據(jù)處理的各項技術(shù),包含Storm、SparkSteaming、Flink、Beam等。
離線和實時大數(shù)據(jù)開發(fā)實戰(zhàn)目錄
前言
第一篇 數(shù)據(jù)大圖和數(shù)據(jù)平臺大圖
第1章 數(shù)據(jù)大圖 2
1.1 數(shù)據(jù)流程 2
1.1.1 數(shù)據(jù)產(chǎn)生 3
1.1.2 數(shù)據(jù)采集和傳輸 5
1.1.3 數(shù)據(jù)存儲處理 6
1.1.4 數(shù)據(jù)應(yīng)用 7
1.2 數(shù)據(jù)技術(shù) 8
1.2.1 數(shù)據(jù)采集傳輸主要技術(shù) 9
1.2.2 數(shù)據(jù)處理主要技術(shù) 10
1.2.3 數(shù)據(jù)存儲主要技術(shù) 12
1.2.4 數(shù)據(jù)應(yīng)用主要技術(shù) 13
1.3 數(shù)據(jù)相關(guān)從業(yè)者和角色 14
1.3.1 數(shù)據(jù)平臺開發(fā)、運維工程師 14
1.3.2 數(shù)據(jù)開發(fā)、運維工程師 15
1.3.3 數(shù)據(jù)分析工程師 15
1.3.4 算法工程師 16
1.3.5 業(yè)務(wù)人員 16
1.4 本章小結(jié) 17
第2章 數(shù)據(jù)平臺大圖 18
2.1 離線數(shù)據(jù)平臺的架構(gòu)、技術(shù)和設(shè)計 19
2.1.1 離線數(shù)據(jù)平臺的整體架構(gòu) 19
2.1.2 數(shù)據(jù)倉庫技術(shù) 20
2.1.3 數(shù)據(jù)倉庫建模技術(shù) 23
2.1.4 數(shù)據(jù)倉庫邏輯架構(gòu)設(shè)計 26
2.2 實時數(shù)據(jù)平臺的架構(gòu)、技術(shù)和設(shè)計 27
2.2.1 實時數(shù)據(jù)平臺的整體架構(gòu) 28
2.2.2 流計算技術(shù) 29
2.2.3 主要流計算開源框架 29
2.3 數(shù)據(jù)管理 32
2.3.1 數(shù)據(jù)探查 32
2.3.2 數(shù)據(jù)集成 33
2.3.3 數(shù)據(jù)質(zhì)量 33
2.3.4 數(shù)據(jù)屏蔽 34
2.4 本章小結(jié) 35
第二篇 離線數(shù)據(jù)開發(fā):大數(shù)據(jù)開發(fā)的主戰(zhàn)場
第3章 Hadoop原理實踐 38
3.1 開啟大數(shù)據(jù)時代的Hadoop 38
3.2 HDFS和MapReduce優(yōu)缺點分析 40
3.2.1 HDFS 41
3.2.2 MapReduce 42
3.3 HDFS和MapReduce基本架構(gòu) 43
3.4 MapReduce內(nèi)部原理實踐 46
3.4.1 MapReduce邏輯開發(fā) 46
3.4.2 MapReduce任務(wù)提交詳解 47
3.4.3 MapReduce內(nèi)部執(zhí)行原理詳解 48
3.5 本章小結(jié) 52
第4章 Hive原理實踐 53
4.1 離線大數(shù)據(jù)處理的主要技術(shù):Hive 53
4.1.1 Hive出現(xiàn)背景 53
4.1.2 Hive基本架構(gòu) 55
4.2 Hive SQL 56
4.2.1 Hive 關(guān)鍵概念 57
4.2.2 Hive 數(shù)據(jù)庫 59
4.2.3 Hive 表DDL 60
4.2.4 Hive表DML 63
4.3 Hive SQL執(zhí)行原理圖解 65
4.3.1 select 語句執(zhí)行圖解 66
4.3.2 group by語句執(zhí)行圖解 67
4.3.3 join語句執(zhí)行圖解 69
4.4 Hive函數(shù) 73
4.5 其他SQL on Hadoop技術(shù) 74
4.6 本章小結(jié) 76
第5章 Hive優(yōu)化實踐 77
5.1 離線數(shù)據(jù)處理的主要挑戰(zhàn):數(shù)據(jù)傾斜 77
5.2 Hive優(yōu)化 79
5.3 join無關(guān)的優(yōu)化 79
5.3.1 group by引起的傾斜優(yōu)化 79
5.3.2 count distinct優(yōu)化 80
5.4 大表join小表優(yōu)化 80
5.5 大表join大表優(yōu)化 82
5.5.1 問題場景 82
5.5.2 方案1:轉(zhuǎn)化為mapjoin 83
5.5.3 方案2:join時用case when語句 84
5.5.4 方案3:倍數(shù)B表,再取模join 84
5.5.5 方案4:動態(tài)一分為二 87
5.6 本章小結(jié) 89
第6章 維度建模技術(shù)實踐 90
6.1 大數(shù)據(jù)建模的主要技術(shù):維度建模 90
6.1.1 維度建模關(guān)鍵概念 91
6.1.2 維度建模一般過程 95
6.2 維度表設(shè)計 96
6.2.1 維度變化 96
6.2.2 維度層次 99
6.2.3 維度一致性 100
6.2.4 維度整合和拆分 101
6.2.5 維度其他 102
6.3 深入事實表 104
6.3.1 事務(wù)事實表 104
6.3.2 快照事實表 106
6.3.3 累計快照事實表 107
6.3.4 無事實的事實表 108
6.3.5 匯總的事實表 108
6.4 大數(shù)據(jù)的維度建模實踐 109
6.4.1 事實表 109
6.4.2 維度表 110
6.5 本章小結(jié) 110
第7章 Hadoop數(shù)據(jù)倉庫開發(fā)實戰(zhàn) 111
7.1 業(yè)務(wù)需求 112
7.2 Hadoop數(shù)據(jù)倉庫架構(gòu)設(shè)計 113
7.3 Hadoop數(shù)據(jù)倉庫規(guī)范設(shè)計 114
7.3.1 命名規(guī)范 115
7.3.2 開發(fā)規(guī)范 115
7.3.3 流程規(guī)范 116
7.4 FutureRetailer數(shù)據(jù)倉庫構(gòu)建實踐 118
7.4.1 商品維度表 118
7.4.2 銷售事實表 120
7.5 數(shù)據(jù)平臺新架構(gòu)——數(shù)據(jù)湖 121
7.6 本章小結(jié) 123
第三篇 實時數(shù)據(jù)開發(fā):大數(shù)據(jù)開發(fā)的未來
第8章 Storm流計算開發(fā) 127
8.1 流計算技術(shù)的鼻祖:Storm技術(shù) 128
8.1.1 Storm基本架構(gòu) 129
8.1.2 Storm關(guān)鍵概念 130
8.1.3 Storm并發(fā) 132
8.1.4 Storm核心類和接口 133
8.2 Storm實時開發(fā)示例 133
8.2.1 語句生成spout 134
8.2.2 語句分割bolt 135
8.2.3 單詞計數(shù)bolt 136
8.2.4 上報bolt 136
8.2.5 單詞計數(shù)topology 137
8.2.6 單詞計數(shù)并發(fā)配置 139
8.3 Storm高級原語Trident 142
8.3.1 Trident引入背景 142
8.3.2 Trident基本思路 142
8.3.3 Trident流操作 143
8.3.4 Trident的實時開發(fā)實例 145
8.4 Storm關(guān)鍵技術(shù) 147
8.4.1 spout的可靠性 147
8.4.2 bolt的可靠性 148
8.4.3 Storm反壓機制 149
8.5 本章小結(jié) 150
第9章 Spark Streaming流計算開發(fā) 151
9.1 Spark生態(tài)和核心概念 151
9.1.1 Spark概覽 151
9.1.2 Spark核心概念 153
9.1.3 Spark生態(tài)圈 157
9.2 Spark生態(tài)的流計算技術(shù):Spark Streaming 158
9.2.1 Spark Streaming基本原理 159
9.2.2 Spark Streaming核心API 159
9.3 Spark Streaming的實時開發(fā)示例 161
9.4 Spark Streaming調(diào)優(yōu)實踐 162
9.5 Spark Streaming關(guān)鍵技術(shù) 164
9.5.1 Spark Streaming可靠性語義 164
9.5.2 Spark Streaming反壓機制 165
9.6 本章小結(jié) 166
第10章 Flink流計算開發(fā) 167
10.1 流計算技術(shù)新貴:Flink 167
10.1.1 Flink技術(shù)棧 168
10.1.2 Flink關(guān)鍵概念和基本原理 169
10.2 Flink API 172
10.2.1 API概覽 172
10.2.2 DataStream API 173
10.3 Flink實時開發(fā)示例 180
10.4 Flink關(guān)鍵技術(shù)詳解 182
10.4.1 容錯機制 182
10.4.2 水位線 184
10.4.3 窗口機制 185
10.4.4 撤回 187
10.4.5 反壓機制 187
10.5 本章小結(jié) 188
第11章 Beam技術(shù) 189
11.1 意圖一統(tǒng)流計算的Beam 190
11.1.1 Beam的產(chǎn)生背景 190
11.1.2 Beam技術(shù) 191
11.2 Beam技術(shù)核心:Beam Model 193
11.3 Beam SDK 196
11.3.1 關(guān)鍵概念 196
11.3.2 Beam SDK 197
11.4 Beam窗口詳解 202
11.4.1 窗口基礎(chǔ) 202
11.4.2 水位線與延遲數(shù)據(jù) 203
11.4.3 觸發(fā)器 204
11.5 本章小結(jié) 205
第12章 Stream SQL實時開發(fā)實戰(zhàn) 206
12.1 流計算SQL原理和架構(gòu) 207
12.2 流計算SQL:未來主要的實時開發(fā)技術(shù) 208
12.3 Stream SQL 209
12.3.1 Stream SQL源表 209
12.3.2 Stream SQL結(jié)果表 209
12.3.3 Stream SQL維度表 210
12.3.4 Stream SQL臨時表 211
12.3.5 Stream SQL DML 211
12.4 Stream SQL的實時開發(fā)實戰(zhàn) 212
12.4.1 select操作 212
12.4.2 join操作 214
12.4.3 聚合操作 218
12.5 撤回機制 221
12.6 本章小結(jié) 222
參考文獻 224
更多>> 軟件截圖
推薦應(yīng)用
其他版本下載
精品推薦
相關(guān)文章
下載地址
離線和實時大數(shù)據(jù)開發(fā)實戰(zhàn)pdf 高清完整版
查看所有評論>> 網(wǎng)友評論
更多>> 猜你喜歡