初识Hadoop:大数据与Hadoop概述
1、大數(shù)據(jù)概述
大數(shù)據(jù)(big data),IT行業(yè)術(shù)語(yǔ),是指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。
大數(shù)據(jù)的主要特點(diǎn)(4V)是:
還有的將大數(shù)據(jù)特點(diǎn)定義為6V模型,即增加了Valence(連接)、Value(價(jià)值)2V。
大數(shù)據(jù)相關(guān)的技術(shù)、框架:
- 計(jì)算框架 離線計(jì)算:Hadoop MapReduce、Spark 實(shí)時(shí)計(jì)算:Storm、Spark Streaming、Flink
- 存儲(chǔ)框架 文件存儲(chǔ):Hadoop HDFS、Tachyon、KFS NOSQL數(shù)據(jù)庫(kù):HBase、MongoDB、Redis 全文檢索:ES、Solr
- 資源管理 YARN、Mesos
- 日志收集 Flume、Logstash
- 消息系統(tǒng) Kafka、StormMQ、ZeroMQ、RabbitMQ
- 查詢分析 Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Kylin、Druid
2、Hadoop
Hadoop 在大數(shù)據(jù)技術(shù)體系中的地位至關(guān)重要,Hadoop 是大數(shù)據(jù)技術(shù)的基礎(chǔ),對(duì)Hadoop基礎(chǔ)知識(shí)的掌握的扎實(shí)程度,會(huì)決定在大數(shù)據(jù)技術(shù)道路上走多遠(yuǎn)。
hadoop是什么?
- Hadoop是一個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。
- 主要解決數(shù)據(jù)存儲(chǔ)和海量數(shù)據(jù)的分析計(jì)算問題。
- 廣義上說(shuō),Hadoop通常指一個(gè)廣泛的概念——Hadoop生態(tài)圈。
Hadoop的優(yōu)勢(shì)!
- 高可靠性。Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。
- 高擴(kuò)展性。Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。
- 高效性。Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非??臁?/li>
- 高容錯(cuò)性。Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。
- 低成本。與一體機(jī)、商用數(shù)據(jù)倉(cāng)庫(kù)以及QlikView、Yonghong
Z-Suite等數(shù)據(jù)集市相比,hadoop是開源的,項(xiàng)目的軟件成本因此會(huì)大大降低。
Hadoop帶有用Java語(yǔ)言編寫的框架,因此運(yùn)行在 Linux 生產(chǎn)平臺(tái)上是非常理想的。
hadoop的組成!
- HDFS: Hadoop Distributed File System 分布式文件系統(tǒng)
- YARN: Yet Another Resource Negotiator 資源管理調(diào)度系統(tǒng)
- Mapreduce:分布式運(yùn)算框架
總結(jié)
以上是生活随笔為你收集整理的初识Hadoop:大数据与Hadoop概述的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux 调优系列
- 下一篇: MySql日期处理系列-常用的日期推算处