當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

什么是大数据？大数据用来干嘛？

發(fā)布時(shí)間：2023/12/20 编程问答 41 豆豆

生活随笔收集整理的這篇文章主要介紹了什么是大数据？大数据用来干嘛？小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

1、何為大數(shù)據(jù)？

大數(shù)據(jù)是指很多很多的數(shù)據(jù)，主要源于web2.0之后，數(shù)據(jù)庫(kù)中的數(shù)據(jù)量累計(jì)起來(lái)很龐大，在對(duì)數(shù)據(jù)進(jìn)行操作（主要指查詢）會(huì)變得很慢，對(duì)機(jī)器的性能要求會(huì)很高，如果數(shù)據(jù)量達(dá)到足夠大（如十幾億），那服務(wù)器會(huì)崩潰的

2、大數(shù)據(jù)解決什么問(wèn)題？

大數(shù)據(jù)解決對(duì)海量數(shù)據(jù)的存儲(chǔ)、查詢、分析計(jì)算等操作，主要應(yīng)用在利用龐大的數(shù)據(jù)歸類分析用戶的偏好，利用用戶的歷史信息得出相應(yīng)的統(tǒng)計(jì)賬單等，將同行業(yè)的大公司的數(shù)據(jù)進(jìn)行計(jì)算分析，可以挖掘出一些隱含價(jià)值。

3、學(xué)習(xí)大數(shù)據(jù)的基礎(chǔ)

1）java SE，EE(SSM)?
因?yàn)?0%的大數(shù)據(jù)框架都是java寫的?
2）SQL?
特別是sql語(yǔ)句中的查詢語(yǔ)句，因?yàn)閷?duì)數(shù)據(jù)庫(kù)的操作最多的是查詢?
使用Hadoop作為大數(shù)據(jù)的分布式存儲(chǔ)、計(jì)算和分析 sql的操作會(huì)重要?
3）Linux?
大數(shù)據(jù)的框架安裝在Linux操作系統(tǒng)上

4、需要學(xué)什么

*第一方面：大數(shù)據(jù)離線分析*

一般處理T+1數(shù)據(jù)（T是指日、周、月、年），處理歷史數(shù)據(jù)?
模塊1：Hadoop?
包括四大塊（common、yarn、MapReduce、HDFS）?
主要掌握環(huán)境搭建、處理數(shù)據(jù)的思想?
模塊2：Hive?
大數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)?
通過(guò)寫SQL對(duì)數(shù)據(jù)進(jìn)行操作，類似于mysql數(shù)據(jù)庫(kù)中的sql?
模塊3：HBase?
基于HDFS的NOSQL數(shù)據(jù)庫(kù)?
面向列的存儲(chǔ)?
協(xié)作框架：?
sqoop（橋梁：HDFS 《==》RDBMS）?
flume:收集日志文件中信息?
調(diào)度框架anzkaban,?
了解：crotab（Linux自帶）、zeus(Alibaba)、Oozie(cloudera)?
擴(kuò)展前沿框架：kylin、impala、ElasticSearch（ES）

第二方面：大數(shù)據(jù)離線分析

以spark框架為主?
Scala：OOP + FP?
sparkCore:類比MapReduce?
sparkSQL:類比hive?
sparkStreaming：實(shí)時(shí)數(shù)據(jù)處理?
kafka:消息隊(duì)列?
前沿框架擴(kuò)展：flink?
阿里巴巴 blink

第三方面：大數(shù)據(jù)機(jī)器學(xué)習(xí)（擴(kuò)展）?
spark MLlib:機(jī)器學(xué)習(xí)庫(kù)?
pyspark編程：Python和spark的結(jié)合?
推薦系統(tǒng)?
python數(shù)據(jù)分析?
Python機(jī)器學(xué)習(xí)

大數(shù)據(jù)框架安裝功能來(lái)劃分

1、海量數(shù)據(jù)存儲(chǔ)：

HDFS、Hive（本質(zhì)存儲(chǔ)數(shù)據(jù)還是hdfs）、HBASE、ES

2、海量數(shù)據(jù)分析：

MapReduce、Spark、SQL

最原始的Hadoop框架?
數(shù)據(jù)存儲(chǔ)：HDFS（Hadoop Distributed File System）?
數(shù)據(jù)分析：MapReduce

Hadoop的起源?
Google的三篇論文?
雖然Google沒(méi)有公布這三個(gè)產(chǎn)品的源碼，?
但是他發(fā)布了這三個(gè)產(chǎn)品的詳細(xì)設(shè)計(jì)論文，?
奠定了風(fēng)靡全球的大數(shù)據(jù)算法的基礎(chǔ)！

Hadoop介紹?
大數(shù)據(jù)絕大多數(shù)框架，都屬于Apache頂級(jí)項(xiàng)目?
http://apache.org/?
hadoop官網(wǎng)：?
http://hadoop.apache.org/

分布式?
相對(duì)于【集中式】?
需要多臺(tái)機(jī)器，進(jìn)行協(xié)助完成。

元數(shù)據(jù)：記錄數(shù)據(jù)的數(shù)據(jù)架構(gòu)：主節(jié)點(diǎn)Master 老大，管理者管理從節(jié)點(diǎn)Slave 從屬，奴隸，被管理者干活

Hadoop也是分布式架構(gòu)?
HDFS:?
主節(jié)點(diǎn)：NameNode?
決定著數(shù)據(jù)存儲(chǔ)到那個(gè)DataNode上?
從節(jié)點(diǎn)：DataNode?
存儲(chǔ)數(shù)據(jù)

**MapReduce:**分而治之思想將海量的數(shù)據(jù)劃分為多個(gè)部分，每部分?jǐn)?shù)據(jù)進(jìn)行單獨(dú)的處理，最后將所有結(jié)果進(jìn)行合并map task單獨(dú)處理每一部分的數(shù)據(jù)、reduce task合并map task的輸出**YARN:**分布式集群資源管理框架，管理者集群的資源（Memory,cpu core）合理調(diào)度分配給各個(gè)程序（MapReduce）使用主節(jié)點(diǎn)：resourceManager掌管集群中的資源從節(jié)點(diǎn)：nodeManager管理每臺(tái)集群資源**總結(jié)：Hadoop的安裝部署**都屬于java進(jìn)程，就是啟動(dòng)了JVM進(jìn)程，運(yùn)行服務(wù)。HDFS：存儲(chǔ)數(shù)據(jù)，提供分析的數(shù)據(jù)NameNode/DataNodeYARN:提供程序運(yùn)行的資源ResourceManager/NodeManager

總結(jié)

以上是生活随笔為你收集整理的什么是大数据？大数据用来干嘛？的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

数据