當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

初识Hadoop：大数据与Hadoop概述

發(fā)布時(shí)間：2025/3/8 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了初识Hadoop：大数据与Hadoop概述小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1、大數(shù)據(jù)概述

大數(shù)據(jù)（big data），IT行業(yè)術(shù)語(yǔ)，是指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合，是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。

大數(shù)據(jù)的主要特點(diǎn)（4V）是：

數(shù)據(jù)量大（Volume）

數(shù)據(jù)類別復(fù)雜（Variety）

數(shù)據(jù)處理速度快（Velocity）

和數(shù)據(jù)真實(shí)性高（Veracity）

還有的將大數(shù)據(jù)特點(diǎn)定義為6V模型，即增加了Valence（連接）、Value（價(jià)值）2V。

大數(shù)據(jù)相關(guān)的技術(shù)、框架：

計(jì)算框架 離線計(jì)算：Hadoop MapReduce、Spark 實(shí)時(shí)計(jì)算：Storm、Spark Streaming、Flink
存儲(chǔ)框架 文件存儲(chǔ)：Hadoop HDFS、Tachyon、KFS NOSQL數(shù)據(jù)庫(kù)：HBase、MongoDB、Redis 全文檢索：ES、Solr
資源管理 YARN、Mesos
日志收集 Flume、Logstash
消息系統(tǒng) Kafka、StormMQ、ZeroMQ、RabbitMQ
查詢分析 Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Kylin、Druid

2、Hadoop

Hadoop 在大數(shù)據(jù)技術(shù)體系中的地位至關(guān)重要，Hadoop 是大數(shù)據(jù)技術(shù)的基礎(chǔ)，對(duì)Hadoop基礎(chǔ)知識(shí)的掌握的扎實(shí)程度，會(huì)決定在大數(shù)據(jù)技術(shù)道路上走多遠(yuǎn)。

hadoop是什么？

Hadoop是一個(gè)由Apache基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。
主要解決數(shù)據(jù)存儲(chǔ)和海量數(shù)據(jù)的分析計(jì)算問題。
廣義上說(shuō)，Hadoop通常指一個(gè)廣泛的概念——Hadoop生態(tài)圈。

Hadoop的優(yōu)勢(shì)！

高可靠性。Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴。
高擴(kuò)展性。Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的，這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。
高效性。Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù)，并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡，因此處理速度非?？臁?/li>
高容錯(cuò)性。Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本，并且能夠自動(dòng)將失敗的任務(wù)重新分配。
低成本。與一體機(jī)、商用數(shù)據(jù)倉(cāng)庫(kù)以及QlikView、Yonghong
Z-Suite等數(shù)據(jù)集市相比，hadoop是開源的，項(xiàng)目的軟件成本因此會(huì)大大降低。

Hadoop帶有用Java語(yǔ)言編寫的框架，因此運(yùn)行在 Linux 生產(chǎn)平臺(tái)上是非常理想的。

hadoop的組成！

HDFS: Hadoop Distributed File System 分布式文件系統(tǒng)
YARN: Yet Another Resource Negotiator 資源管理調(diào)度系統(tǒng)
Mapreduce：分布式運(yùn)算框架

總結(jié)

以上是生活随笔為你收集整理的初识Hadoop：大数据与Hadoop概述的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： linux 调优系列
下一篇： MySql日期处理系列-常用的日期推算处