什么是大数据!!
day01大數據
什么是大數據
海量數據 文件 mysql 緩存數據
怎么進行大數據處理 hadoop
-
數據怎么存儲 hadoop中的HDFS
-
數據怎么計算 (增刪改查)hadoop中的MR
大數據特點
Volume:數據量大,包括采集、存儲和計算的量都非常大;
Variety:種類和來源多樣化。包括結構化、半結構化和非結構化數據;
Value:數據價值密度相對較低,或者說是浪里淘沙卻又彌足珍貴;
Velocity:數據增長速度快,處理速度也快,時效性要求高;
Veracity:數據的準確性和可信賴度,即數據的質量。
大數據的方向
etl(采集,清洗,轉化,導入) 數據倉庫 hadoop的數據存儲和計算
數據采集:埋點,爬蟲
數據清洗:去除空數據或重復數據
數據轉化:轉化為對應的存儲形式
數據存儲:excle,mysql,hadoop
數據分析:
數據展示:BI
拓展
離線計算
hadoop mr
近實時計算
spark
實時計算
flink
分布式技術
數倉工具大部分都采用分布式技術
將應用或程序分別安裝部署在不同的服務器上統一對外提供服務
-
應用分布式
-
存儲分布式
-
計算分布式
集群
對外提供多個相同服務
zookeeper
分布式協調服務
在數倉領域的場景 協調hadoop服務實現高可用
zookeeper特性
-
一致性
-
可靠性
-
順序性
-
原子性
-
實時性
zookeeper機器節點---多個zookeeper服務之間的角色劃分
-
leader--領導者角色 負責管理維護多個zookeeper服務,leader基于內部算法選舉產生,超過一般的服務同意則該服務就作為leader服務對外提供zk服務,leader主要處理事務請求(保存,更新,刪除)
-
follower--跟隨者角色 處理獲取數據請求,定時將當前狀態告知給leader(心跳機制),參與選舉過程
-
observer--觀察者角色 處理查詢請求,不參選舉過程
zookeeper數據節點---zookeeper存儲數據時的數據模型
-
永久節點
-
順序永久節點
-
臨時節點
-
順序臨時節點
zookeeper配置
下載安裝包、解壓
tar -zxvf zookeeper-3.4.6.tar.gz mv zookeeper-3.4.6 zookeeper
修改環境變量,可選操作
vi /etc/profile export ZOOKEEPER_HOME=/export/server/zookeeper export PATH=$PATH:$ZOOKEEPER_HOME/bin
source /etc/profile
修改Zookeeper配置文件
cd zookeeper/conf mv zoo_sample.cfg zoo.cfg
vi zoo.cfg 添加內容: dataDir=/export/data/zkdata
最后一行添加
server.1=node1:2888:3888 server.2=node2:2888:3888 server.3=node3:2888:3888
添加每個節點zk服務編號myid
創建文件夾:
mkdir -p /export/data/zkdata
在data文件夾下新建myid文件,myid的文件內容為對應服務器編號:
echo 1 > /export/data/zkdata/myid
分發安裝包到其他機器
cd /export/server
scp -r zookeeper/ root@node2:$PWD scp -r zookeeper/ root@node3:$PWD
修改其他機器的配置文件
修改myid文件 mkdir -p /export/data/zkdata echo 2 > /export/data/zkdata/myid
mkdir -p /export/data/zkdata echo 3 > /export/data/zkdata/myid
總結
- 上一篇: 2015中兴笔试+面试
- 下一篇: 打字练习pk之代码篇