大数据开发实战教程目录
大數(shù)據(jù)開(kāi)發(fā)實(shí)戰(zhàn)教程目錄
一、 課程性質(zhì)、目的和任務(wù)
本課程目的是讓學(xué)生了解并掌握四個(gè)領(lǐng)域
(1)大數(shù)據(jù)系統(tǒng)的起源及系統(tǒng)特征
(2)大數(shù)據(jù)系統(tǒng)的架構(gòu)設(shè)計(jì)及功能目標(biāo)設(shè)計(jì)
(3)大數(shù)據(jù)系統(tǒng)程序開(kāi)發(fā)、企業(yè)大數(shù)據(jù)案例分析的內(nèi)容
利用真機(jī)實(shí)驗(yàn)環(huán)節(jié)以及大數(shù)據(jù)實(shí)訓(xùn)一體機(jī)來(lái)提升學(xué)生對(duì)大數(shù)據(jù)開(kāi)發(fā)的實(shí)踐能力;
本課程重點(diǎn)讓學(xué)生掌握五個(gè)方面的內(nèi)容:
(1)HDFS 使用操作;
(2)MapReduce 開(kāi)發(fā);
(3)HBase 數(shù)據(jù)庫(kù)的開(kāi)發(fā);
(4)Hive 數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā);
(5)大數(shù)據(jù)案例分析;
二、 教學(xué)內(nèi)容及要求
第一節(jié) 大數(shù)據(jù)概述
- 授課學(xué)時(shí):1
- 基本要求:
第二節(jié) 大數(shù)據(jù)應(yīng)用開(kāi)發(fā)思路和開(kāi)發(fā)環(huán)境配置
- 授課學(xué)時(shí):1
- 基本要求:
第三節(jié) HDFS 分布式文件系統(tǒng)
- 授課學(xué)時(shí):4
- 基本要求:
第五節(jié) HBase 分布式數(shù)據(jù)庫(kù)
- 授課學(xué)時(shí):4
- 基本要求:
第六節(jié) Hive 數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)
- 授課學(xué)時(shí):6
- 基本要求:
第七節(jié) Spark 數(shù)據(jù)挖掘
- 授課學(xué)時(shí):4
- 基本要求:
第八節(jié) 綜合案例分析
1、 某網(wǎng)站訪問(wèn)日志分析
- 授課學(xué)時(shí):2
- 基本要求:
2、某搜索引擎網(wǎng)站日志分析
- 授課學(xué)時(shí):2
- 基本要求:
3、某大型電商數(shù)據(jù)分析
- 授課學(xué)時(shí):2
- 基本要求:
實(shí)驗(yàn)環(huán)節(jié)介紹
實(shí)驗(yàn)環(huán)節(jié) 1:HDFS 操作命令操作
實(shí)驗(yàn)?zāi)繕?biāo)及要求:
讓學(xué)生掌握分布式文件系統(tǒng) HDFS 的文件操作,包含導(dǎo)入導(dǎo)出文件、列表、查找、刪除文件等。
實(shí)驗(yàn)環(huán)節(jié) 2:MapReduce 開(kāi)發(fā)(單詞計(jì)數(shù))
實(shí)驗(yàn)?zāi)繕?biāo)及要求:
讓學(xué)生掌握在 HDFS 文件系統(tǒng)內(nèi)的 Map 及 Reduce 的 Java 開(kāi)發(fā),實(shí)現(xiàn)對(duì)指定文本文件的單詞計(jì)數(shù),將統(tǒng)計(jì)結(jié)果輸出至控制臺(tái)。
實(shí)驗(yàn)環(huán)節(jié) 3:HBase 數(shù)據(jù)庫(kù)命令操作
實(shí)驗(yàn)?zāi)繕?biāo)及要求:
讓學(xué)生掌握分布式文件數(shù)據(jù)庫(kù)系統(tǒng) HBase 的數(shù)據(jù)庫(kù)操作,包含創(chuàng)建表、刪除表、增加列、導(dǎo)入記錄、刪除記錄等。
實(shí)驗(yàn)環(huán)節(jié) 4:Hive 數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)使用
實(shí)驗(yàn)?zāi)繕?biāo)及要求:
讓學(xué)生掌握在 Hive 數(shù)據(jù)倉(cāng)庫(kù)的基本命令的操作,包含創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)、創(chuàng)建表、刪除表、導(dǎo)入及導(dǎo)出數(shù)據(jù),統(tǒng)計(jì)查詢等在 CLI 模式下的使用操作。
實(shí)驗(yàn)環(huán)節(jié) 5:分析網(wǎng)站訪問(wèn)日志
實(shí)驗(yàn)?zāi)繕?biāo)及要求:
實(shí)踐在企業(yè)應(yīng)用中的互聯(lián)網(wǎng)網(wǎng)站訪問(wèn)日志的分析案例,利用 Hive 工具完成對(duì)每小時(shí)內(nèi)的訪問(wèn) PV 及 IP 數(shù)據(jù),同時(shí)將統(tǒng)計(jì)結(jié)果輸出至網(wǎng)頁(yè)。
實(shí)驗(yàn)環(huán)節(jié) 6:分析搜索引擎網(wǎng)站日志數(shù)據(jù)
實(shí)驗(yàn)?zāi)繕?biāo)及要求:
分析關(guān)鍵字的統(tǒng)計(jì)日志的數(shù)據(jù),利用 Hive 工具完成對(duì)關(guān)鍵詞的統(tǒng)計(jì),包含搜索關(guān)鍵詞排行、用戶習(xí)慣點(diǎn)擊第幾個(gè)連接、訪問(wèn)目標(biāo)網(wǎng)站排行等,同時(shí)將統(tǒng)計(jì)結(jié)果輸出至網(wǎng)頁(yè)。
實(shí)驗(yàn)環(huán)節(jié) 7:分析電商網(wǎng)站數(shù)據(jù)
實(shí)驗(yàn)?zāi)繕?biāo)及要求:
對(duì)此大型電商數(shù)據(jù)進(jìn)行實(shí)踐分析,利用 Hive 工具完成對(duì)商品銷售統(tǒng)計(jì),同類商品推薦等分析指標(biāo),將分析結(jié)果導(dǎo)出至關(guān)系型數(shù)據(jù)庫(kù) Mysql。
附錄 2:教材目錄
第一章 大數(shù)據(jù)概述 7
1.1. 大數(shù)據(jù)的起源 7
1.1.1. 豌豆雜交實(shí)驗(yàn) 7
1.1.2. 曹沖稱象啟示 7
1.1.3. 谷歌的三項(xiàng)核心元素 9
1.2. 大數(shù)據(jù)的概念 9
1.2.1. 大數(shù)據(jù)概念 10
1.2.2. 大數(shù)據(jù)的特征 10
1.2.3. 數(shù)據(jù)計(jì)量單位 11
1.2.4. 大數(shù)據(jù)來(lái)源 11
1.2.5. 大數(shù)據(jù)類型 12
1.3. 大數(shù)據(jù)系統(tǒng) 12
1.3.1. 系統(tǒng)設(shè)計(jì)背景 12
1.3.2. 設(shè)計(jì)目標(biāo)和原則 13
1.3.3. 系統(tǒng)的設(shè)計(jì)思想 14
1.3.4. 系統(tǒng)的邏輯架構(gòu) 16
1.3.5. 與現(xiàn)有系統(tǒng)的關(guān)系 17
1.3.6. 當(dāng)前的大數(shù)據(jù)系統(tǒng) 19
1.4. 企業(yè)的大數(shù)據(jù)觀 25
1.4.1. 企業(yè)面臨的挑戰(zhàn) 25
1.4.2. 企業(yè)大數(shù)據(jù)從哪來(lái) 25
1.4.3. 企業(yè)大數(shù)據(jù)如何存儲(chǔ) 27
1.4.4. 企業(yè)大數(shù)據(jù)如何加工 31
1.4.5. 企業(yè)的大數(shù)據(jù)到哪里去 35
1.4.6. 企業(yè)大數(shù)據(jù)觀總結(jié) 37
第二章 大數(shù)據(jù)系統(tǒng)應(yīng)用開(kāi)發(fā)思路及環(huán)境 38
2.1. 總體思路 38
2.1.1. 大數(shù)據(jù)讀寫應(yīng)用的開(kāi)發(fā) 38
2.1.2. 大數(shù)據(jù)分析應(yīng)用的開(kāi)發(fā) 38
2.2. 開(kāi)發(fā)環(huán)境 39
2.2.1. Plugin 插件的安裝 39
2.2.2. Hadoop 開(kāi)發(fā)環(huán)境的配置 39
2.2.3. 示例程序驗(yàn)證 41
第三章 HDFS 分布式文件系統(tǒng) 48
3.1. 設(shè)計(jì)目標(biāo) 48
3.2. 基本概念 49
3.2.1. 塊 49
3.2.2. 名稱節(jié)點(diǎn)與數(shù)據(jù)節(jié)點(diǎn) 49
3.3. 系統(tǒng)架構(gòu) 50
3.3.1. 邏輯架構(gòu) 50
3.3.2. 物理架構(gòu) 51
3.4. 運(yùn)行機(jī)制 51
3.4.1. 文件讀取 52
3.4.2. 文件寫入 53
3.4.3. 特別關(guān)注 54
3.5. 系統(tǒng)功能 57
3.5.1. 多文件系統(tǒng) 57
3.5.2. 目錄管理 58
3.5.3. 文件管理 59
3.5.4. 文件歸檔 59
3.5.5. 并行復(fù)制 60
3.6. 系統(tǒng) I/O 特性 61
3.6.1. 完整性校驗(yàn) 61
3.6.2. 壓縮與編碼解碼 62
3.6.3. 序列化 64
3.6.4. 特殊文件結(jié)構(gòu) 65
3.7. 非 Java 訪問(wèn)接口 66
3.8. 系統(tǒng)性能 67
3.8.1. 可靠性措施 67
3.8.2. 性能優(yōu)化 68
3.9. 程序開(kāi)發(fā) 69
3.9.1. 文件列表 69
3.9.2. 文件讀取 71
3.9.3. 文件上傳 72
3.9.4. 文件創(chuàng)建 74
3.9.5. 文件寫入 75
3.9.6. 文件壓縮與解壓 76
3.9.7. 壓縮寫入 77
3.9.8. 解壓讀取 78
3.9.9. 目錄創(chuàng)建 80
3.9.10. 文件重命名 81
3.9.11. 刪除文件 83
3.9.12. 查看文件時(shí)間 84
3.9.13. 查看文件是否存在 86
3.9.14. 查找文件位置 87
3.9.15. 查找集群所有的節(jié)點(diǎn) 89
3.9.16. SequenceFile 文件格式轉(zhuǎn)換 90
3.9.17. 讀取 SequenceFile 格式的文件 92
3.9.18. MapFile 文件格式轉(zhuǎn)換 95
3.9.19. 讀取 MapFile 格式的文件 97
第四章 MapReduce 分布式編程 99
4.1. 不同于傳統(tǒng) 99
4.2. 設(shè)計(jì)思想 100
4.3. 基本概念 100
4.3.1. map()函數(shù) 101
4.3.2. reduce()函數(shù) 101
4.3.3. 鍵值對(duì) 102
4.3.4. 中間結(jié)果 102
4.3.5. 移動(dòng)代碼 103
4.3.6. 作業(yè)和任務(wù)節(jié)點(diǎn) 104
4.4. 系統(tǒng)架構(gòu) 104
4.4.1. 邏輯架構(gòu) 104
4.4.2. 物理架構(gòu) 106
4.5. 運(yùn)行機(jī)制 106
4.5.1. 作業(yè)運(yùn)行 106
4.5.2. 作業(yè)調(diào)度 109
4.5.3. 任務(wù)執(zhí)行 109
4.5.4. 狀態(tài)更新 110
4.5.5. 作業(yè)完成 111
4.5.6. 故障處理 111
4.6. 關(guān)鍵技術(shù) 112
4.6.1. 計(jì)數(shù)器 112
4.6.2. 排序 113
4.6.3. 連接 113
4.6.4. shuffle 114
4.6.5. 內(nèi)存處理 115
4.6.6. 分布式緩存 116
4.7. 類型與格式 117
4.7.1. MR 的類型 117
4.7.2. 輸入格式 119
4.7.3. 輸出格式 121
4.8. MapReduce 程序開(kāi)發(fā) 122
4.8.1. 定制數(shù)據(jù)類型 122
4.8.2. 定制輸入格式 126
4.8.3. 定制輸出格式 131
4.8.4. 將整個(gè)文件作為輸入 137
4.8.5. 小文件聚合成一個(gè)文件 143
4.8.6. 多集合文件輸出 145
4.8.7. 對(duì)壓縮數(shù)據(jù)處理 148
4.8.8. 定制 partitioner 151
4.8.9. 定制 combiner 155
4.8.10. MapReduce 組合 159
4.8.11. 多數(shù)據(jù)源連接 175
4.8.12. 全局參數(shù)應(yīng)用 189
4.8.13. 全局文件應(yīng)用 192
4.8.14. 關(guān)系數(shù)據(jù)庫(kù)訪問(wèn) 195
第五章 HBase 分布式數(shù)據(jù)庫(kù) 204
5.1. 設(shè)計(jì)目標(biāo) 204
5.2. 基本概念 205
5.2.1. 邏輯模型 205
5.2.2. 物理模型 206
5.2.3. 區(qū)域 207
5.2.4. 基本單元 207
5.2.5. Region 服務(wù)器 208
5.2.6. Master 主服務(wù)器 209
5.2.7. 元數(shù)據(jù)表.META 210
5.2.8. 元數(shù)據(jù)表–ROOT 211
5.3. 系統(tǒng)架構(gòu) 212
5.3.1. 邏輯架構(gòu) 212
5.3.2. 物理架構(gòu) 213
5.4. 運(yùn)行機(jī)制 214
5.5. 系統(tǒng)功能 215
5.5.1. 用戶界面 215
5.5.2. Shell 操作 218
5.6. 庫(kù)表設(shè)計(jì) 220
5.7. 訪問(wèn)接口 221
5.8. 程序開(kāi)發(fā) 222
5.8.1. 創(chuàng)建表 222
5.8.2. 刪除表 225
5.8.3. 查詢表 226
5.8.4. 插入記錄 228
5.8.5. 查詢記錄 229
5.8.6. 修改記錄 240
5.8.7. 刪除記錄 242
第六章 Hive 數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā) 244
6.1. Hive 介紹 244
6.1.1. Hive 工作原理 244
6.1.2. Hive 數(shù)據(jù)類型 245
6.1.3. Hive 的特點(diǎn) 246
6.2. Hive 架構(gòu) 248
6.2.1 Hive 用戶接口 248
6.2.2 Hive 元數(shù)據(jù)庫(kù) 250
6.2.3 Hive 的數(shù)據(jù)存儲(chǔ) 251
6.2.4 Hive 解析器 252
6.3. Hive 文件格式 253
6.3.1 TextFile 格式 254
6.3.2 SequenceFile 格式 254
6.3.3 RCFile 文件格式 254
6.4. HiveQL 語(yǔ)言 257
6.5. HiveQL 表操作 257
6.5.1. 內(nèi)部表 257
6.5.2. 外部表 264
6.5.3. 分區(qū)表 265
6.5.4. 桶表 269
6.5.5. 視圖 271
6.6. HiveQL 查詢 272
6.6.1. 連接 272
6.6.2. 子查詢 275
6.7. UDF 編碼 276
6.7.1. 加入 jar 包 277
6.7.2. 命名函數(shù) 277
6.7.3. 調(diào)用測(cè)試函數(shù) 277
6.7.4. 移除 jar 包 278
6.8. UDAF 編碼 278
6.8.1. 在 Hive 中加入 jar 包。 279
6.8.2. 命名成一個(gè)函數(shù)。 280
6.8.3. 調(diào)用測(cè)試函數(shù) 280
6.8.4. 在 Hive 中移除 jar 包 280
6.9. 客服端編碼 280
6.9.1. 與 hive 服務(wù)器端連接建立 281
6.9.2. 與 hive 進(jìn)行指令交互 282
6.9.3. 客戶端命令組織 282
第七章 Spark 數(shù)據(jù)挖掘 284
7.1. 概述 284
7.1.1. 簡(jiǎn)述數(shù)據(jù)挖掘歷程 284
7.1.2. 傳統(tǒng)商業(yè)版數(shù)據(jù)挖掘工具 284
7.1.3. 免費(fèi)開(kāi)源的數(shù)據(jù)挖掘技術(shù) 284
7.1.4. 常用的數(shù)據(jù)挖掘的算法與編程語(yǔ)言 285
7.1.5. 數(shù)據(jù)挖掘技術(shù) Spark 286
7.1.6. Spark 與 mapreduce 的區(qū)別 289
7.2. Spark 數(shù)據(jù)分析處理 290
7.2.1. Spark Core 290
7.2.2. Spark SQL 294
7.2.3. Spark Streaming 298
7.3. Spark MLlib 機(jī)器學(xué)習(xí) 302
7.3.1. Spark MLlib 的簡(jiǎn)述 302
7.3.2. Spark MLlib 架構(gòu)解析 302
7.3.3. Spark MLlib 經(jīng)典算法解析 303
第八章 綜合案例分析 304
8.1. 網(wǎng)站訪問(wèn)日志分析 304
8.1.1. 項(xiàng)目來(lái)源 304
8.1.2. 數(shù)據(jù)情況 304
8.1.3. 項(xiàng)目架構(gòu) 306
8.1.4. 項(xiàng)目目標(biāo) 306
8.1.5. 數(shù)據(jù)表結(jié)構(gòu)設(shè)計(jì) 306
8.1.6. 統(tǒng)計(jì)分析過(guò)程 307
8.1.7. 成果展示 308
8.2. 搜索引擎網(wǎng)站關(guān)鍵字日志分析 309
8.2.1. 項(xiàng)目來(lái)源 309
8.2.2. 數(shù)據(jù)情況 310
8.2.3. 項(xiàng)目架構(gòu) 310
8.2.4. 項(xiàng)目目標(biāo) 310
8.2.5. 數(shù)據(jù)表結(jié)構(gòu)設(shè)計(jì) 311
8.2.6. 統(tǒng)計(jì)分析過(guò)程 311
8.2.7. 成果展示 319
總結(jié)
以上是生活随笔為你收集整理的大数据开发实战教程目录的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 认识UDS诊断29认证服务-Authen
- 下一篇: Excel VBA合并不同工作簿所有工作