日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

什么是大数据?大数据用来干嘛?

發布時間:2023/12/20 编程问答 37 豆豆
生活随笔 收集整理的這篇文章主要介紹了 什么是大数据?大数据用来干嘛? 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1、何為大數據?

大數據是指很多很多的數據,主要源于web2.0之后,數據庫中的數據量累計起來很龐大,在對數據進行操作(主要指查詢)會變得很慢,對機器的性能要求會很高,如果數據量達到足夠大(如十幾億),那服務器會崩潰的

2、大數據解決什么問題?

大數據解決對海量數據的存儲、查詢、分析計算等操作,主要應用在利用龐大的數據歸類分析用戶的偏好,利用用戶的歷史信息得出相應的統計賬單等,將同行業的大公司的數據進行計算分析,可以挖掘出一些隱含價值。

3、學習大數據的基礎

1)java SE,EE(SSM)?
因為90%的大數據框架都是java寫的?
2)SQL?
特別是sql語句中的查詢語句,因為對數據庫的操作最多的是查詢?
使用Hadoop作為大數據的分布式存儲、計算和分析 sql的操作會重要?
3)Linux?
大數據的框架安裝在Linux操作系統上

4、需要學什么

*第一方面:大數據離線分析*

一般處理T+1數據(T是指日、周、月、年),處理歷史數據?
模塊1:Hadoop?
包括四大塊(common、yarn、MapReduce、HDFS)?
主要掌握環境搭建、處理數據的思想?
模塊2:Hive?
大數據數據倉庫?
通過寫SQL對數據進行操作,類似于mysql數據庫中的sql?
模塊3:HBase?
基于HDFS的NOSQL數據庫?
面向列的存儲?
協作框架:?
sqoop(橋梁:HDFS 《==》RDBMS)?
flume:收集日志文件中信息?
調度框架anzkaban,?
了解:crotab(Linux自帶)、zeus(Alibaba)、Oozie(cloudera)?
擴展前沿框架:kylin、impala、ElasticSearch(ES)

第二方面:大數據離線分析

以spark框架為主?
Scala:OOP + FP?
sparkCore:類比MapReduce?
sparkSQL:類比hive?
sparkStreaming:實時數據處理?
kafka:消息隊列?
前沿框架擴展:flink?
阿里巴巴 blink

第三方面:大數據機器學習(擴展)?
spark MLlib:機器學習庫?
pyspark編程:Python和spark的結合?
推薦系統?
python數據分析?
Python機器學習

大數據框架安裝功能來劃分

1、海量數據存儲:

HDFS、Hive(本質存儲數據還是hdfs)、HBASE、ES

2、海量數據分析:

MapReduce、Spark、SQL

最原始的Hadoop框架?
數據存儲:HDFS(Hadoop Distributed File System)?
數據分析:MapReduce

Hadoop的起源?
Google的三篇論文?
雖然Google沒有公布這三個產品的源碼,?
但是他發布了這三個產品的詳細設計論文,?
奠定了風靡全球的大數據算法的基礎!

Hadoop介紹?
大數據絕大多數框架,都屬于Apache頂級項目?
http://apache.org/?
hadoop官網:?
http://hadoop.apache.org/

分布式?
相對于【集中式】?
需要多臺機器,進行協助完成。

元數據:記錄數據的數據架構:主節點Master 老大,管理者管理從節點Slave 從屬,奴隸,被管理者干活
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

Hadoop也是分布式架構?
HDFS:?
主節點:NameNode?
決定著數據存儲到那個DataNode上?
從節點:DataNode?
存儲數據

**MapReduce:**分而治之思想將海量的數據劃分為多個部分,每部分數據進行單獨的處理,最后將所有結果進行合并map task單獨處理每一部分的數據、reduce task合并map task的輸出**YARN:**分布式集群資源管理框架,管理者集群的資源(Memory,cpu core)合理調度分配給各個程序(MapReduce)使用主節點:resourceManager掌管集群中的資源從節點:nodeManager管理每臺集群資源**總結:Hadoop的安裝部署**都屬于java進程,就是啟動了JVM進程,運行服務。HDFS:存儲數據,提供分析的數據NameNode/DataNodeYARN:提供程序運行的資源ResourceManager/NodeManager

總結

以上是生活随笔為你收集整理的什么是大数据?大数据用来干嘛?的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。