當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

当我说要做大数据工程师时他们都笑我，直到三个月后……转

發布時間：2025/4/5 编程问答 47 豆豆

生活随笔收集整理的這篇文章主要介紹了当我说要做大数据工程师时他们都笑我，直到三个月后……转小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

GitChat 作者：Fickr孫啟誠?
原文：?三個月大數據研發學習計劃實戰解析?
關注微信公眾號：「GitChat 技術雜談」一本正經的講技術

【不要錯過文末彩蛋】

申明：

本文旨在為普通程序員（Java程序員最佳）提供一個入門級別的大數據技術學習路徑，不適用于大數據工程師的進階學習，也不適用于零編程基礎的同學。

前言：

一、背景介紹
二、大數據介紹

正文：

一、大數據相關的工作介紹
二、大數據工程師的技能要求
三、大數據學習規劃
四、持續學習資源推薦（書籍，博客，網站）
五、項目案例分析（批處理+實時處理）

前言

一、背景介紹

本人目前是一名大數據工程師，項目數據50T，日均數據增長20G左右，個人是從Java后端開發，經過3個月的業余自學成功轉型大數據工程師。

二、大數據介紹

大數據本質也是數據，但是又有了新的特征，包括數據來源廣、數據格式多樣化（結構化數據、非結構化數據、Excel文件、文本文件等）、數據量大（最少也是TB級別的、甚至可能是PB級別）、數據增長速度快等。

針對以上主要的4個特征我們需要考慮以下問題：

數據來源廣，該如何采集匯總？，對應出現了Sqoop，Cammel，Datax等工具。

數據采集之后，該如何存儲？，對應出現了GFS，HDFS，TFS等分布式文件存儲系統。

由于數據增長速度快，數據存儲就必須可以水平擴展。

數據存儲之后，該如何通過運算快速轉化成一致的格式，該如何快速運算出自己想要的結果？

對應的MapReduce這樣的分布式運算框架解決了這個問題；但是寫MapReduce需要Java代碼量很大，所以出現了Hive，Pig等將SQL轉化成MapReduce的解析引擎；

普通的MapReduce處理數據只能一批一批地處理，時間延遲太長，為了實現每輸入一條數據就能得到結果，于是出現了Storm/JStorm這樣的低時延的流式計算框架；

但是如果同時需要批處理和流處理，按照如上就得搭兩個集群，Hadoop集群（包括HDFS+MapReduce+Yarn）和Storm集群，不易于管理，所以出現了Spark這樣的一站式的計算框架，既可以進行批處理，又可以進行流處理（實質上是微批處理）。

而后Lambda架構，Kappa架構的出現，又提供了一種業務處理的通用架構。

為了提高工作效率，加快運速度，出現了一些輔助工具：

Ozzie，azkaban：定時任務調度的工具。
Hue，Zepplin：圖形化任務執行管理，結果查看工具。
Scala語言：編寫Spark程序的最佳語言，當然也可以選擇用Python。
Python語言：編寫一些腳本時會用到。
Allluxio，Kylin等：通過對存儲的數據進行預處理，加快運算速度的工具。

以上大致就把整個大數據生態里面用到的工具所解決的問題列舉了一遍，知道了他們為什么而出現或者說出現是為了解決什么問題，進行學習的時候就有的放矢了。

正文

一、大數據相關工作介紹

大數據方向的工作目前主要分為三個主要方向:

大數據工程師

數據分析師

大數據科學家

其他（數據挖掘等）

二、大數據工程師的技能要求

附上大數據工程師技能圖：

必須掌握的技能11條

Java高級(虛擬機、并發)

Linux 基本操作

Hadoop（HDFS+MapReduce+Yarn ）

HBase（JavaAPI操作+Phoenix ）

Hive(Hql基本操作和原理理解）

Kafka

Storm/JStorm

Scala

Python

Spark (Core+sparksql+Spark streaming ）

輔助小工具(Sqoop/Flume/Oozie/Hue等)

高階技能6條

機器學習算法以及mahout庫加MLlib

R語言

Lambda 架構

Kappa架構

Kylin

Alluxio

三、學習路徑

假設每天可以抽出3個小時的有效學習時間，加上周末每天保證10個小時的有效學習時間；

3個月會有（21*3+4*2*10）*3=423小時的學習時間。

第一階段（基礎階段）

1）Linux學習（跟鳥哥學就ok了）—–20小時

Linux操作系統介紹與安裝。

Linux常用命令。

Linux常用軟件安裝。

Linux網絡。

防火墻。

Shell編程等。

官網：https://www.centos.org/download/?
中文社區：http://www.linuxidc.com/Linux/2017-09/146919.htm

2）Java 高級學習（《深入理解Java虛擬機》、《Java高并發實戰》）—30小時

掌握多線程。

掌握并發包下的隊列。

了解JMS。

掌握JVM技術。

掌握反射和動態代理。

官網：https://www.java.com/zh_CN/?
中文社區：http://www.java-cn.com/index.html

3）Zookeeper學習（可以參照這篇博客進行學習：http://www.cnblogs.com/wuxl360/p/5817471.html）

Zookeeper分布式協調服務介紹。

Zookeeper集群的安裝部署。

Zookeeper數據結構、命令。

Zookeeper的原理以及選舉機制。

官網：http://zookeeper.apache.org/?
中文社區：http://www.aboutyun.com/forum-149-1.html

第二階段（攻堅階段）

4）Hadoop （《Hadoop 權威指南》）—80小時

HDFS

HDFS的概念和特性。
HDFS的shell操作。
HDFS的工作機制。
HDFS的Java應用開發。

MapReduce

運行WordCount示例程序。
了解MapReduce內部的運行機制。?
- MapReduce程序運行流程解析。
- MapTask并發數的決定機制。
- MapReduce中的combiner組件應用。
- MapReduce中的序列化框架及應用。
- MapReduce中的排序。
- MapReduce中的自定義分區實現。
- MapReduce的shuffle機制。
- MapReduce利用數據壓縮進行優化。
- MapReduce程序與YARN之間的關系。
- MapReduce參數優化。

MapReduce的Java應用開發

官網：http://hadoop.apache.org/?
中文文檔：http://hadoop.apache.org/docs/r1.0.4/cn/?
中文社區：http://www.aboutyun.com/forum-143-1.html

5）Hive（《Hive開發指南》）–20小時

Hive 基本概念

Hive 應用場景。
Hive 與hadoop的關系。
Hive 與傳統數據庫對比。
Hive 的數據存儲機制。

Hive 基本操作

Hive 中的DDL操作。
在Hive 中如何實現高效的JOIN查詢。
Hive 的內置函數應用。
Hive shell的高級使用方式。
Hive 常用參數配置。
Hive 自定義函數和Transform的使用技巧。
Hive UDF/UDAF開發實例。

Hive 執行過程分析及優化策略

官網：https://hive.apache.org/?
中文入門文檔：http://www.aboutyun.com/thread-11873-1-1.html?
中文社區：http://www.aboutyun.com/thread-7598-1-1.html

6）HBase（《HBase權威指南》）—20小時

hbase簡介。

habse安裝。

hbase數據模型。

hbase命令。

hbase開發。

hbase原理。

官網：http://hbase.apache.org/?
中文文檔：http://abloz.com/hbase/book.html?
中文社區：http://www.aboutyun.com/forum-142-1.html

7）Scala（《快學Scala》）–20小時

Scala概述。

Scala編譯器安裝。

Scala基礎。

數組、映射、元組、集合。

類、對象、繼承、特質。

模式匹配和樣例類。

了解Scala Actor并發編程。

理解Akka。

理解Scala高階函數。

理解Scala隱式轉換。

官網：http://www.scala-lang.org/?
初級中文教程：http://www.runoob.com/scala/scala-tutorial.html

8）Spark （《Spark 權威指南》）—60小時

Spark core

Spark概述。
Spark集群安裝。
執行第一個Spark案例程序（求PI）。

RDD

RDD概述。
創建RDD。
RDD編程API（Transformation 和 Action Operations）。
RDD的依賴關系
RDD的緩存
DAG（有向無環圖）

Spark SQL and DataFrame/DataSet

Spark SQL概述。
DataFrames。
DataFrame常用操作。
編寫Spark SQL查詢程序。

Spark Streaming

park Streaming概述。
理解DStream。
DStream相關操作（Transformations 和 Output Operations）。

Structured Streaming

其他（MLlib and GraphX ）

這個部分一般工作中如果不是數據挖掘，機器學習一般用不到，可以等到需要用到的時候再深入學習。

官網：http://spark.apache.org?
中文文檔（但是版本有點老）：https://www.gitbook.com/book/aiyanbo/spark-programming-guide-zh-cn/details?
中文社區：http://www.aboutyun.com/forum-146-1.html

9）Python (推薦廖雪峰的博客—30小時

10）自己用虛擬機搭建一個集群，把所有工具都裝上，自己開發一個小demo —30小時

可以自己用VMware搭建4臺虛擬機，然后安裝以上軟件，搭建一個小集群（本人親測，I7，64位，16G內存，完全可以運行起來，以下附上我學習時用虛擬機搭建集群的操作文檔）

集群搭建文檔1.0版本

1. 集群規劃

所有需要用到的軟件：

鏈接：http://pan.baidu.com/s/1jIlAz2Y?
密碼：kyxl

2. 前期準備

2.0 系統安裝2.1 主機名配置2.1.0 vi /etc/sysconfig/networkNETWORKING=yes2.1.1 vi /etc/sysconfig/networkNETWORKING=yesHOSTNAME=ys022.1.2 vi /etc/sysconfig/networkNETWORKING=yes2.1.3 vi /etc/sysconfig/networkNETWORKING=yesHOSTNAME=ys042.2 host文件修改2.2.0 vi /etc/hosts10.1.1.149 ys0110.1.1.148 ys0210.1.1.146 ys0310.1.1.145 ys04 2.3 關閉防火墻(centos 7默認使用的是firewall，centos 6 默認是iptables)2.3.0 systemctl stop firewalld.service （停止firewall）2.3.1 systemctl disable firewalld.service （禁止firewall開機啟動）2.3.2 firewall-cmd --state （查看默認防火墻狀態（關閉后顯示notrunning，開啟后顯示running）2.4 免密登錄(ys01 ->ys02,03,04)ssh-keygen -t rsassh-copy-id ys02(隨后輸入密碼)ssh-copy-id ys03（隨后輸入密碼）ssh-copy-id ys04（隨后輸入密碼）ssh ys02(測試是否成功)ssh ys03(測試是否成功)ssh ys04(測試是否成功)2.5 系統時區與時間同步tzselect（生成日期文件）cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime（將日期文件copy到本地時間中）

3. 軟件安裝

3.0 安裝目錄規劃（軟件為所有用戶公用）3.0.0所有軟件的安裝放到/usr/local/ys/soft目錄下(mkdir /usr/local/ys/soft)3.0.1所有軟件安裝到/usr/local/ys/app目錄下(mkdir /usr/local/ys/app)3.1 JDK（jdk1.7）安裝3.1.1 alt+p 后出現sftp窗口，cd /usr/local/ys/soft，使用sftp上傳tar包到虛機ys01的/usr/local/ys/soft目錄下3.1.2解壓jdkcd /usr/local/ys/soft#解壓tar -zxvf jdk-7u80-linux-x64.tar.gz -C /usr/local/ys/app3.1.3將java添加到環境變量中vim /etc/profile#在文件最后添加export JAVA_HOME= /usr/local/ys/app/ jdk-7u80export PATH=$PATH:$JAVA_HOME/bin3.1.4 刷新配置source /etc/profile3.2 Zookeeper安裝3.2.0解壓tar -zxvf zookeeper-3.4.5.tar.gz -C /usr/local/ys/app（解壓）3.2.1 重命名mv zookeeper-3.4.5 zookeeper（重命名文件夾zookeeper-3.4.5為zookeeper）3.2.2修改環境變量vi /etc/profile(修改文件)添加內容：export ZOOKEEPER_HOME=/usr/local/ys/app/zookeeperexport PATH=$PATH:$ZOOKEEPER_HOME/bin3.2.3 重新編譯文件：source /etc/profile注意：3臺zookeeper都需要修改3.2.4修改配置文件cd zookeeper/confcp zoo_sample.cfg zoo.cfgvi zoo.cfg添加內容：dataDir=/usr/local/ys/app/zookeeper/datadataLogDir=/usr/local/ys/app/zookeeper/logserver.1=ys01:2888:3888 (主機名, 心跳端口、數據端口)server.2=ys02:2888:3888server.3=ys04:2888:38883.2.5 創建文件夾cd /usr/local/ys/app/zookeeper/mkdir -m 755 datamkdir -m 755 log3.2.6 在data文件夾下新建myid文件，myid的文件內容為：cd datavi myid添加內容：1將集群下發到其他機器上scp -r /usr/local/ys/app/zookeeper ys02:/usr/local/ys/app/scp -r /usr/local/ys/app/zookeeper ys04:/usr/local/ys/app/3.2.7修改其他機器的配置文件到ys02上：修改myid為：2到ys02上：修改myid為：33.2.8啟動（每臺機器）zkServer.sh start查看集群狀態jps（查看進程）zkServer.sh status（查看集群狀態，主從信息）3.3 Hadoop（HDFS+Yarn）3.3.0 alt+p 后出現sftp窗口，使用sftp上傳tar包到虛機ys01的/usr/local/ys/soft目錄下3.3.1 解壓jdkcd /usr/local/ys/soft#解壓tar -zxvf cenos-7-hadoop-2.6.4.tar.gz -C /usr/local/ys/app3.3.2 修改配置文件core-site.xml

hdfs-site.xml

yarn-sifite.xml

svalesys02 ys03 ys043.3.3集群啟動（嚴格按照下面的步驟）3.3.3.1啟動zookeeper集群（分別在ys01、ys02、ys04上啟動zk）cd /usr/local/ys/app/zookeeper-3.4.5/bin/./zkServer.sh start#查看狀態：一個leader，兩個follower./zkServer.sh status3.3.3.2啟動journalnode（分別在在mini5、mini6、mini7上執行）cd /usr/local/ys/app/hadoop-2.6.4sbin/hadoop-daemon.sh start journalnode#運行jps命令檢驗，ys02、ys03、ys04上多了JournalNode進程3.3.3.3格式化HDFS#在ys01上執行命令:hdfs namenode -format#格式化后會在根據core-site.xml中的hadoop.tmp.dir配置生成個文件，這里我配置的是/usr/local/ys/app/hadoop-2.6.4/tmp，然后將/usr/local/ys/app/hadoop-2.6.4/tmp拷貝到ys02的/usr/local/ys/app/hadoop-2.6.4/下。scp -r tmp/ ys02:/usr/local/ys /app/hadoop-2.6.4/##也可以這樣，建議hdfs namenode -bootstrapStandby3.3.3.4格式化ZKFC(在ys01上執行一次即可)hdfs zkfc -formatZK3.3.3.5啟動HDFS(在ys01上執行)sbin/start-dfs.sh3.3.3.6啟動YARNsbin/start-yarn.sh3.3MySQL-5.6安裝略過3.4 Hive3.4.1 alt+p 后出現sftp窗口，cd /usr/local/ys/soft，使用sftp上傳tar包到虛機ys01的/usr/local/ys/soft目錄下3.4.2解壓cd /usr/local/ys/soft tar -zxvf hive-0.9.0.tar.gz -C /usr/local/ys/app3.4.3 .配置hive3.4.3.1配置HIVE_HOME環境變量 vi conf/hive-env.sh 配置其中的$hadoop_home3.4.3.2配置元數據庫信息 vi hive-site.xml

添加如下內容：

3.4.4 安裝hive和mysq完成后，將mysql的連接jar包拷貝到$HIVE_HOME/lib目錄下如果出現沒有權限的問題，在mysql授權(在安裝mysql的機器上執行)mysql -uroot -p#(執行下面的語句 *.*:所有庫下的所有表 %：任何IP地址或主機都可以連接)GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY 'root' WITH GRANT OPTION;FLUSH PRIVILEGES;3.4.5 Jline包版本不一致的問題，需要拷貝hive的lib目錄中jline.2.12.jar的jar包替換掉hadoop中的 /usr/local/ys/app/hadoop-2.6.4/share/hadoop/yarn/lib/jline-0.9.94.jar3.4.6啟動hivebin/hive3.5 Kafka3.5.1 下載安裝包http://kafka.apache.org/downloads.html在linux中使用wget命令下載安裝包wget http://mirrors.hust.edu.cn/apache/kafka/0.8.2.2/kafka_2.11-0.8.2.2.tgz3.5.2 解壓安裝包tar -zxvf /usr/local/ys/soft/kafka_2.11-0.8.2.2.tgz -C /usr/local/ys/app/ cd /usr/local/ys/app/ ln -s kafka_2.11-0.8.2.2 kafka3.5.3 修改配置文件cp /usr/local/ys/app/kafka/config/server.properties/usr/local/ys/app/kafka/config/server.properties.bakvi /usr/local/ys/kafka/config/server.properties

輸入以下內容：

3.5.4 分發安裝包scp -r /usr/local/ys/app/kafka_2.11-0.8.2.2 ys02: /usr/local/ys/app/scp -r /usr/local/ys/app/kafka_2.11-0.8.2.2 ys03: /usr/local/ys/app/scp -r /usr/local/ys/app/kafka_2.11-0.8.2.2 ys04: /usr/local/ys/app/然后分別在各機器上創建軟連cd /usr/local/ys/app/ln -s kafka_2.11-0.8.2.2 kafka3.5.5 再次修改配置文件（重要）依次修改各服務器上配置文件的的broker.id，分別是0,1,2不得重復。3.5.6 啟動集群依次在各節點上啟動kafkabin/kafka-server-start.sh config/server.properties3.6 Spark3.6.1 alt+p 后出現sftp窗口，cd /usr/local/ys/soft，使用sftp上傳tar包到虛機ys01的/usr/local/ys/soft目錄下3.6.2 解壓安裝包 tar -zxvf /usr/local/ys/soft/ spark-1.6.1-bin-hadoop2.6.tgz -C /usr/local/ys/app/3.6.3 修改Spark配置文件(兩個配置文件spark-env.sh和slaves)cd /usr/local/ys/soft/spark-1.6.1-bin-hadoop2.6進入conf目錄并重命名并修改spark-env.sh.template文件cd conf/mv spark-env.sh.template spark-env.shvi spark-env.sh在該配置文件中添加如下配置export JAVA_HOME=/usr/java/jdk1.7.0_45export SPARK_MASTER_PORT=7077export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=ys01,ys02,ys04 -Dspark.deploy.zookeeper.dir=/spark"保存退出重命名并修改slaves.template文件mv slaves.template slavesvi slaves在該文件中添加子節點所在的位置（Worker節點）Ys02Ys03Ys04保存退出3.6.4 將配置好的Spark拷貝到其他節點上scp -r spark-1.6.1-in-hadoop2.6/ ys02:/usr/local/ys/appscp -r spark-1.6.1-bin-hadoop2.6/ ys03:/usr/local/ys/appscp -r spark-1.6.1-bin-hadoop2.6/ ys04:/usr/local/ys/app3.6.5 集群啟動在ys01上執行sbin/start-all.sh腳本然后在ys02上執行sbin/start-master.sh啟動第二個Master3.7 Azkaban3.7.1 azkaban web服務器安裝解壓azkaban-web-server-2.5.0.tar.gz命令: tar –zxvf /usr/local/ys/soft/azkaban-web-server-2.5.0.tar.gz -C /usr/local/ys/app/azkaban將解壓后的azkaban-web-server-2.5.0 移動到 azkaban目錄中,并重新命名 webserver命令: mv azkaban-web-server-2.5.0 ../azkabancd ../azkabanmv azkaban-web-server-2.5.0 webserver3.7.2 azkaban 執行服器安裝解壓azkaban-executor-server-2.5.0.tar.gz命令:tar –zxvf /usr/local/ys/soft/azkaban-executor-server-2.5.0.tar.gz -C /usr/local/ys/app/azkaban將解壓后的azkaban-executor-server-2.5.0 移動到 azkaban目錄中,并重新命名 executor命令:mv azkaban-executor-server-2.5.0 ../azkabancd ../azkabanmv azkaban-executor-server-2.5.0 executor3.7.3 azkaban腳本導入解壓: azkaban-sql-script-2.5.0.tar.gz命令:tar –zxvf azkaban-sql-script-2.5.0.tar.gz將解壓后的mysql 腳本,導入到mysql中:進入mysqlmysql> create database azkaban;mysql> use azkaban;Database changedmysql> source /usr/local/ys/soft/azkaban-2.5.0/create-all-sql-2.5.0.sql;3.7.4 創建SSL配置參考地址: http://docs.codehaus.org/display/JETTY/How+to+configure+SSL命令: keytool -keystore keystore -alias jetty -genkey -keyalg RSA運行此命令后,會提示輸入當前生成 keystor的密碼及相應信息,輸入的密碼請勞記,信息如下(此處我輸入的密碼為：123456)輸入keystore密碼：再次輸入新密碼:您的名字與姓氏是什么？[Unknown]：您的組織單位名稱是什么？[Unknown]：您的組織名稱是什么？[Unknown]：您所在的城市或區域名稱是什么？[Unknown]：您所在的州或省份名稱是什么？[Unknown]：該單位的兩字母國家代碼是什么[Unknown]： CNCN=Unknown, OU=Unknown, O=Unknown, L=Unknown, ST=Unknown, C=CN 正確嗎？[否]： y 輸入<jetty>的主密碼（如果和 keystore 密碼相同，按回車）：再次輸入新密碼完成上述工作后,將在當前目錄生成 keystore 證書文件,將keystore 考貝到 azkaban web服務器根目錄中.如:cp keystore azkaban/webserver3.7.5 配置文件注：先配置好服務器節點上的時區先生成時區配置文件Asia/Shanghai，用交互式命令 tzselect 即可拷貝該時區文件，覆蓋系統本地時區配置cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime 3.7.6 azkaban web服務器配置進入azkaban web服務器安裝目錄 conf目錄修改azkaban.properties文件命令vi azkaban.properties

內容說明如下：

*Azkaban Personalization Settings azkaban.name=Test #服務器UI名稱,用于服務器上方顯示的名字 azkaban.label=My Local Azkaban #描述 azkaban.color=#FF3601 #UI顏色 azkaban.default.servlet.path=/index # web.resource.dir=web/ #默認根web目錄 default.timezone.id=Asia/Shanghai #默認時區,已改為亞洲/上海默認為美國 *Azkaban UserManager class user.manager.class=azkaban.user.XmlUserManager #用戶權限管理默認類 user.manager.xml.file=conf/azkaban-users.xml #用戶配置,具體配置參加下文 *Loader for projects executor.global.properties=conf/global.properties # global配置文件所在位置 azkaban.project.dir=projects # database.type=mysql #數據庫類型 mysql.port=3306 #端口號 mysql.host=localhost #數據庫連接IP mysql.database=azkaban #數據庫實例名 mysql.user=root #數據庫用戶名 mysql.password=Root123456 #數據庫密碼 mysql.numconnections=100 #最大連接數 * Velocity dev mode velocity.dev.mode=false * Jetty服務器屬性. jetty.maxThreads=25 #最大線程數 jetty.ssl.port=8443 #Jetty SSL端口 jetty.port=8081 #Jetty端口 jetty.keystore=keystore #SSL文件名 jetty.password=123456 #SSL文件密碼 jetty.keypassword=123456 #Jetty主密碼與 keystore文件相同 jetty.truststore=keystore #SSL文件名 jetty.trustpassword=123456 # SSL文件密碼 * 執行服務器屬性 executor.port=12321 #執行服務器端 *郵件設置 mail.sender=xxxxxxxx@163.com #發送郵箱 mail.host=smtp.163.com #發送郵箱smtp地址 mail.user=xxxxxxxx #發送郵件時顯示的名稱 mail.password=********** #郵箱密碼 job.failure.email=xxxxxxxx@163.com #任務失敗時發送郵件的地址 job.success.email=xxxxxxxx@163.com #任務成功時發送郵件的地址 lockdown.create.projects=false # cache.directory=cache #緩存目錄 3.7.7azkaban 執行服務器executor配置進入執行服務器安裝目錄conf,修改azkaban.properties vi azkaban.properties *Azkaban default.timezone.id=Asia/Shanghai #時區 * Azkaban JobTypes 插件配置 azkaban.jobtype.plugin.dir=plugins/jobtypes #jobtype 插件所在位置 *Loader for projects executor.global.properties=conf/global.properties azkaban.project.dir=projects *數據庫設置 database.type=mysql #數據庫類型(目前只支持mysql) mysql.port=3306 #數據庫端口號 mysql.host=192.168.20.200 #數據庫IP地址 mysql.database=azkaban #數據庫實例名 mysql.user=root #數據庫用戶名 mysql.password=Root23456 #數據庫密碼 mysql.numconnections=100 #最大連接數 *執行服務器配置 executor.maxThreads=50 #最大線程數 executor.port=12321 #端口號(如修改,請與web服務中一致) executor.flow.threads=30 #線程數 3.7.8用戶配置進入azkaban web服務器conf目錄,修改azkaban-users.xmlvi azkaban-users.xml 增加管理員用戶

3.7.9 web服務器啟動在azkaban web服務器目錄下執行啟動命令bin/azkaban-web-start.sh注:在web服務器根目錄運行或者啟動到后臺nohup bin/azkaban-web-start.sh 1>/tmp/azstd.out 2>/tmp/azerr.out &3.7.10執行服務器啟動在執行服務器目錄下執行啟動命令bin/azkaban-executor-start.sh注:只能要執行服務器根目錄運行啟動完成后,在瀏覽器(建議使用谷歌瀏覽器)中輸入https://服務器IP地址:8443 ,即可訪問azkaban服務了.在登錄中輸入剛才新的戶用名及密碼,點擊 login3.8 Zeppelin 參照如下文件： http://blog.csdn.net/chengxuyuanyonghu/article/details/54915817 http://blog.csdn.net/chengxuyuanyonghu/article/details/549159623.9 HBase3.9.1解壓tar –zxvf /usr/local/ys/soft/hbase-0.99.2-bin.tar.gz -C /usr/local/ys/app3.9.2重命名cd /usr/local/ys/appmv hbase-0.99.2 hbase3.9.3修改配置文件每個文件的解釋如下：hbase-env.shexport JAVA_HOME=/usr/local/ys/app/jdk1.7.0_80 //jdk安裝目錄export HBASE_CLASSPATH=/usr/local/ys/app/hadoop-2.6.4/etc/hadoop //hadoop配置文件的位置export HBASE_MANAGES_ZK=false #如果使用獨立安裝的zookeeper這個地方就是false（此處使用自己的zookeeper）hbase-site.xml

Regionservers //是從機器的域名 Ys02 ys03 ys04注：此處HBase配置是針對HA模式的hdfs3.9.4將Hadoop的配置文件hdfs-site.xml和core-site.xml拷貝到HBase配置文件中cp /usr/local/ys/app/Hadoop-2.6.4/etc/hadoop/hdfs-site.xml /usr/local/ys/app/hbase/confcp /usr/local/ys/app/hadoop-2.6.4/etc/hadoop/core-site.xml /usr/local/ys/app/hbase/conf3.9.5發放到其他機器scp –r /usr/local/ys/app/hbase ys02: /usr/local/ys/appscp –r /usr/local/ys/app/hbase ys03: /usr/local/ys/appscp –r /usr/local/ys/app/hbase ys04: /usr/local/ys/app3.9.6啟動cd /usr/local/ys/app/hbase/bin./ start-hbase.sh3.9.7查看進程：jps進入hbase的shell：hbase shell退出hbase的shell：quit頁面：http://master:60010/ 3.10KAfkaOffsetMonitor(Kafka集群的監控程序，本質就是一個jar包)3.10.1上傳jar包略3.10.2 運行jar包 nohup java -cp KafkaOffsetMonitor-assembly-0.2.1.jar com.quantifind.kafka.offsetapp.OffsetGetterWeb --zk ys01,ys02,ys04 --refresh 5.minutes --retain 1.day --port 8089 $

4. 集群調優

4.1 輔助工具盡量不安裝到數據或者運算節點，避免占用過多計算或內存資源。4.2 dataNode和spark的slave節點盡量在一起；這樣運算的時候就可以避免通過網絡拉取數據，加快運算速度。4.3 Hadoop集群機架感知配置，配置之后可以使得數據在同機架的不同機器2份，然后其他機架機器1份，可是兩臺機器四臺虛機沒有必要配感知個人感覺。4.4 配置參數調優可以參考http://blog.csdn.net/chndata/article/details/46003399

第三階段（輔助工具工學習階段）

11）Sqoop（CSDN，51CTO ，以及官網）—20小時

數據導出概念介紹

Sqoop基礎知識

Sqoop原理及配置說明

Sqoop數據導入實戰

Sqoop數據導出實戰、

Sqoop批量作業操作

推薦學習博客：http://student-lp.iteye.com/blog/2157983?
官網：http://sqoop.apache.org/

12）Flume（CSDN，51CTO ，以及官網）—20小時

FLUME日志采集框架介紹。

FLUME工作機制。

FLUME核心組件。

FLUME參數配置說明。

FLUME采集nginx日志案例（案例一定要實踐一下）

推薦學習博客：http://www.aboutyun.com/thread-8917-1-1.html?
官網：http://flume.apache.org

13）Oozie（CSDN，51CTO ，以及官網）–20小時

任務調度系統概念介紹。

常用任務調度工具比較。

Oozie介紹。

Oozie核心概念。

Oozie的配置說明。

Oozie實現mapreduce/hive等任務調度實戰案例。

推薦學習博客：http://www.infoq.com/cn/articles/introductionOozie?
官網：http://oozie.apache.org/

14）Hue（CSDN，51CTO ，以及官網）–20小時

推薦學習博客：http://ju.outofmemory.cn/entry/105162?
官網：http://gethue.com/

第四階段（不斷學習階段）

每天都會有新的東西出現，需要關注最新技術動態，不斷學習。任何一般技術都是先學習理論，然后在實踐中不斷完善理論的過程。

備注

1）如果你覺得自己看書效率太慢，你可以網上搜集一些課程，跟著課程走也OK 。如果看書效率不高就很網課，相反的話就自己看書。

2）企業目前更傾向于使用Spark進行微批處理，Storm只有在對時效性要求極高的情況下，才會使用，所以可以做了解。重點學習Spark Streaming。

3）快速學習的能力、解決問題的能力、溝通能力**真的很重要。

4）要善于使用StackOverFlow和Google（遇到解決不了的問題，先Google，如果Google找不到解決方能就去StackOverFlow提問，一般印度三哥都會在2小時內回答你的問題）。

5）視頻課程推薦：

可以去萬能的淘寶購買一些視頻課程，你輸入“大數據視頻課程”，會出現很多，多購買幾份（100塊以內可以搞定），然后選擇一個適合自己的。個人認為小象學院的董西成和陳超的課程含金量會比較高。

四、持續學習資源推薦

Apache 官網（http://apache.org/）

Stackoverflow（https://stackoverflow.com/）

Github(https://github.com/)

Cloudra官網(https://www.cloudera.com/)

Databrick官網(https://databricks.com/)

About 云：http://www.aboutyun.com/

CSDN，51CTO （http://www.csdn.net/，http://www.51cto.com/）

至于書籍當當一搜會有很多，其實內容都差不多。

五、項目案例分析

1）點擊流日志項目分析（此處借鑒CSDN博主的文章，由于沒有授權，所以就沒有貼過來，下面附上鏈接）—-批處理

http://blog.csdn.net/u014033218/article/details/76847263

2）Spark Streaming在京東的項目實戰（京東的實戰案例值得好好研究一下，由于沒有授權，所以就沒有貼過來，下面附上鏈接）—實時處理?
http://download.csdn.net/download/csdndataid_123/8079233

最后但卻很重要一點:每天都會有新的技術出現，要多關注技術動向，持續學習。

以上內容不保證一年以后仍適用。

【GitChat達人課】

前端惡棍 · 大漠窮秋?：《Angular 初學者快速上手教程?》

Python 中文社區聯合創始人 · Zoom.Quiet?：《GitQ: GitHub 入味兒?》

前端顏值擔當 · 余博倫：《如何從零學習 React 技術棧?》

GA 最早期使用者 · GordonChoi：《GA 電商數據分析實踐課》

技術總監及合伙人 · 楊彪：《Gradle 從入門到實戰》

混元霹靂手 · 江湖前端：《Vue 組件通信全揭秘》

知名互聯網公司安卓工程師 · 張拭心：《安卓工程師跳槽面試全指南》

轉載于:https://www.cnblogs.com/davidwang456/p/7755330.html

總結

以上是生活随笔為你收集整理的当我说要做大数据工程师时他们都笑我，直到三个月后……转的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。