大数据学习顺序
第一階段:Java語言編程基礎
1.計算機基礎
DOS常用命令、Java概述、JDK環境安裝配置、環境變量配置、Java程序入門
2.編程基礎
常量與變量、數據類型、運算符、流程控制語句、方法、數組
3.面向對象
面向對象思想、類與對象、成員變量和局部變量、封裝、 this關鍵字、構造方法
4.常用類
Object類、Scanner類、Random類、String、StringBuilder類
5.集合操作
集合概述、集合特點、ArrayList集合
6.IO操作
字符輸入流、字符輸出流、字符緩沖輸入流、字符緩沖輸出流、 復制文件、集合與文件中數據相互讀寫。
第二階段:JavaWeb核心
1.前端
HTML、CSS、JavaSript、BootStrap
2.數據庫
MySQL數據庫、MySQL單表操作、MySQL多表操作、MySQL事物、 MySQL存儲引擎、JDBC、JDBCDataSource
3.Web核心
Tomcat、Http協議、servlet入門、Rquest、Response、JSP、MVC、 Cookie、Session、JSP、ETL、JSTL、Filter、listener
4.web增強
Jquery、Ajax、ajax跨域、分頁
5.基礎增強
多線程入門、網絡編程入門、反射、動態代理、注解
第三階段:網站開發三大框架
1.項目構建及管理
Maven項目構建、管理、編譯、倉庫配置,SVN服務器部署、 SVN客戶端、自動化部署
2.數據庫操作框架
mybatis框架原理、mybatis入門案例、mybatis開發DAO方式、 mybatis輸入輸出映射、動態sql、spring整合mybatis
3.Spring框架
applicationContext、xml配置文件編寫、IoC思想、DI依賴注入、 使用AspectJ切面編程、JdbcTemplate模板使用、聲明式事務管理、SSH整合
4.SpringMVC框架
springmvc框架原理、springmvc入門案例、springmvc整合mybatis、 參數綁定、json數據交互、攔截器
5.CRM項目實戰
使用springmvc+spring4+mybatis+svn來開發項目、 使用BootStrap進行布局
第四階段:大數據娛樂頭條
1.Linux服務器
(1)VMware虛擬機安裝、linux常用命令、linux用戶權限與網絡安全
(2)linux下應用tomcat、linux下應用MySQL、linux下應用nginx、 nginx負載均衡配置
2.分布式爬蟲實戰
(1)大數據娛樂頭條-項目整體介紹
(2)大數據娛樂頭條-爬蟲基礎、Http協議、HttpClient網絡請求、 Jsoup網頁解析、黑客行為之后臺登錄
(3)大數據娛樂頭條-Java并發、多線程、阻塞隊列、 網易娛樂爬蟲開發實戰
(4)大數據娛樂頭條-Redis基礎、Redis集群、Redis常用API、購物車、 排行榜、Redis持久化
(5)大數據娛樂頭條-分布式爬蟲、代理IP、爬蟲攻防技術、分布式爬蟲開發實戰
3.分布式搜索
(1)大數據娛樂頭條-lucene基礎、搜索系統原理、Lucene創建索引、 Lucene查詢索引、Lucene分頁、Lucene高亮
(2)大數據娛樂頭條-solr基礎、solr在Linux部署、solr管理界面、 solr創建索引、solr查詢索引、solr高亮、solrj客戶端管理
(3)大數據娛樂頭條-SSM搜索服務、搜索引擎界面、搜索分頁、搜索高亮、 搜索熱詞聯想
(4)大數據娛樂頭條-zookeeper集群、zookeeper原理、dubbox、 搜索服務開發
(5)大數據娛樂頭條-Kafka基礎、Kafka集群、生產分發策略、消息不丟失、 存儲機制、消費者負責均衡、Kafka配置文件詳解
(6)大數據娛樂頭條-爬蟲集成Kafka、爬蟲創建索引、 FreeMarker熱門搜索結果靜態化
(7)大數據娛樂頭條-綜合部署、nginx負載均衡、solrcloud集群、 solrcloud原理分析
4.搜索性能優化
(1)大數據娛樂頭條-nginx+lua基礎、點擊流日志收集系統部署
(2)大數據娛樂頭條-Storm基礎、Storm架構、Storm編程模型、 Storm實時看板、Storm消息不丟失
(3)大數據娛樂頭條-Storm熱詞統計,提供實時熱詞靜態化
(4)大數據娛樂頭條-Storm爬蟲日志監控項目實戰
(5)大數據娛樂頭條-Storm日志分析項目實戰
5.JVM與數據庫優化
(1)JVM虛擬機基礎與性能調優
(2)數據庫分析與優化
第五階段:大數據Hadoop實戰
1.大數據環境準備
linux基礎、linux的shell編程、大數據環境準備、zookeeper、網絡編程概述
2.Hadoop集群部署
Hadoop的發展簡史、Hadoop的版本介紹、 三個公司對Hadoop版本的支持了解、 Hadoop1.x版本與2.x版本的架構比較、 Apache版本Hadoop三種環境構建、 CDH版本的Hadoop重新編譯
3.HDFS&MapReduce
HDFS的來源、HDFS設計目標、Hadoop的架構圖、文件副本機制、 block塊存儲、HDFS的元數據信息、FSimage以及edits、 ScondaryNN的作用、HDFS的文件寫入過程、HDFS的文件讀取過程、 HDFS的API操作、HadoopMapReduce設計構思、 MapReduce框架結構、MapReduce編程規范及示例編寫、 MapReduce程序運行模式
4.MapReduce優化
MapReduce的分區、ReduceTask的數量設置、 MapReduce排序以及序列化、MapReduce計數器、MapReducecombiner、MapReduce上網流量統計、 MapTask運行機制詳解、Map任務的并行度、ReduceTask工作機制、reduceTask的并行度、MapReduceshuffle過程、shuffle階段數據的壓縮機制
5.自定義及資源調度
MapReduce實現join、社交粉絲數據分析、mapreduce案例:倒排索引建立、 自定義inputFormat合并小文件、自定義outputFormat、 自定義GroupingComparator求取topN、mapreduce參數優化、 Yarn資源調度
6.Hive數據倉庫
數據倉庫特征、數據倉庫架構、Hive的概念、Hive架構、Hive部署及使用、 HiveDDL、HiveDML、Hive命令行、Hive參數配置、Hive內置函數、 HiveUDF開發、Hive的數據壓縮、Hive的文件格式、Hive調優、 Hive語句綜合練習
7.網站流量日志分析
網站流量日志采集、數據分析系統介紹、系統開發架構、Flume實現數據采集、 數據預處理、數據倉庫設計、ETL、統計分析、Sqoop結果導出、 工作流調度azkaban、數據可視化
8.Impala&Hue
impala的介紹、impala安裝準備、制作本地yum源、impala的安裝、 impala基本使用、impala的java開發、Hue的介紹、Hue的安裝、 hue與HDFS集成、hue與yarn集成、配置hue與hive集成、 配置hue與impala的集成、配置hue與mysql的集成
9.大數據新技術
Oozie介紹、Oozie架構、Oozie的執行流程、Oozie組件、Oozie的安裝、 hue整合Oozie、hadoopHA、hadoopFederation、CDH整體架構、 CDH環境安裝、Kylin、kettle、kudu
第六階段:大數據Spark實戰
1.Scala語言基礎
Scala基礎語法、Scala高級特性、Scala的Akka編程實戰
2.Spark基礎
Spark概述、Spark集群安裝部署、Spark運行架構、Spark編程模型
3.SparkRDD
RDD概述、RDD特征、RDD算子操作、RDD依賴、RDD緩存、 Spark任務調度、checkpoint、RDD編程實戰
4.SparkSQL
SparkSQL概述、DataFrame、DataFrame常用操作、DataSet介紹、 SparkSQL整合JDBC、SparkonYarn
5.SparkStreaming
概述、與Storm的對比、SparkStreaming原理、DStream操作實戰、 開窗函數、整合Flume、整合Kafka
6.項目實戰階段
互聯網電商用戶畫像建模、開發、數據導入、 數據存儲(Hbase+Phoenix)、可視化
7.項目實戰階段
大數據反欺詐系統、航空領域反爬蟲項目實戰、系統架構、防爬規則、 Nginx+lua+kafak整合、高頻IP檢測、SparkStreaming規則引擎開發、 數據可視化
8.新技術
flink的簡介、最值函數aggregate和minBy、maxBy、 去重distict和關聯join函數、union合并和rebalance負載均衡、 3種分區方式(hash、range、sort)、source數據源、flink的sink操作、 本地執行和集群執行、廣播變量的操作、分布式緩存的使用、 無重疊數據處理、 窗口劃分、windowTime、同步hbase、flink的source源、 基于mysql的sink操作、flink的容錯、flink對接kafka數據、案例實戰
第七階段:大數據機器學習實戰
1.機器學習概念入門
(1)基本概念:屬性、屬性的度量、屬性類型、數據集類型、數據集的特性、訓練集、測試集、特征值、監督學習、非監督學習、半監督學習等概念
(2)數據的預處理:聚集、抽樣、維度規約、特征子集選擇、特征創建、離散化和二元化、變量變換
(3)模型的評估:模型的過分擬合(過擬合),欠擬合,評估分類器的性能(交叉驗證和自助法),模型評估方法、損失函數和風險函數、參數優化等,模型復雜度(奧卡姆剃刀)
(4)機器學習處理的一般流程分析
2.機器學習數學基礎
初等數學基礎、函數求導以及鏈式求導法則、方向導數、梯度、泰勒級數、 拉格朗日乘子法、線性代數與矩陣、特征值與特征向量、概率分析、 極大似然估計、梯度下降法代碼實踐、牛頓法代碼實戰、 矩陣分解實戰(SVD,PCA,QR)
3.機器學習語言基礎之Python語言
基礎數據類型、list/tuple/dict/set、列表推導式、生成器推導式、 lambda函數、控制語句、文件讀寫、異常處理分析、面向對象編程、 GUI編程、Python基礎項目實踐
4.Python數據分析庫實戰
Numpy矩陣運算庫基礎及實戰、Scipy數值運算庫基礎及實戰、 Matplotlib繪圖庫基礎及實戰、Seaborn繪圖庫基礎及實戰、 Pandas數據分析庫基礎及實戰
5.Spark機器學習庫實戰
SparkML和SparkMLLIB區別、Spark機器學習基礎、Pipeline管道、 特征抽取(TF-IDF、Word2Vec、CountVectorizer)、特征轉換(Tokenizer、 PCA、N-gram、DCT、one-hot、MinMaxScaler、Normalizer、SqlTransformer、VectorAssembler)、特征選擇(VectorSlicer、RFormula、 ChiSqSelector)
6.機器學習算法之用戶標簽預測項目實戰
用戶畫像標簽預測實戰、KNN、KMeans、決策樹算法模型(ID3、C4.5、 Cart樹)、集成學習算法(Bagging、隨機森林、Adaboost算法、GBDT算法、 XGBOOST算法、LightGBM算法模型)、人才流失模型項目實戰
7.機器學習算法之推薦系統實戰
基于記憶的CF實戰(Surprise庫實戰)、基于模型的CF實戰(SparkALS實戰)、 基于Native-Bayes分類算法實戰、基于內容推薦(jieba分詞、提取詞向量、 文本分類、特征聚類)、關聯挖掘算法實戰(基于Spark的FP-Growth算法實戰)、推薦項目實戰
8.機器學習算法之CTR點擊率預估實戰
特征工程實戰、CTR點擊率預估應用場景分析、 邏輯斯特回歸算法理論基礎推導及項目實戰、推薦系統指標分析、 推薦系統架構分析、基于Wideanddeep模型理論及實戰(學會讀學術Paper)
9.機器學習算法之深度學習基礎及圖片分類實戰
神經網絡和深度學習基礎、MP神經元模型、感知機模型、BPNN模型實戰、 CNN模型實戰圖像識別、Tensorflow基礎、電影評論文本分析、 RNN文本情感分析實戰
10.機器學習面試必備
機器學習算法串講、機器學習面試題目詳解,剖析結合人工智能實際場景、 機器學習或人工智能類崗位核心技能需求、所需知識和技能、主流機器學習工具和框架的使用方法、開放式問題和系統設計問題, 融匯貫通整個課程知識點、大數據和機器學習部分項目銜接
?
總結
- 上一篇: php 除数 保留两位小数,c语言除法怎
- 下一篇: axure 8 表格合并_Excel表格