當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

大数据基础技术和应用

發(fā)布時(shí)間：2023/11/30 编程问答 54 豆豆

生活随笔收集整理的這篇文章主要介紹了大数据基础技术和应用小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

大數(shù)據(jù)概述

數(shù)據(jù)的表現(xiàn)形式：

線下數(shù)據(jù)信息化：數(shù)據(jù)庫(kù)、文字記錄、照片……
互聯(lián)網(wǎng)-移動(dòng)互聯(lián)網(wǎng)：網(wǎng)頁(yè)數(shù)據(jù)、用戶行為記錄、數(shù)字圖像……
傳感器：設(shè)備監(jiān)控、智能家居、攝像頭……

大數(shù)據(jù)的4V特征：

大量化（Volume）：存儲(chǔ)量大、增量大；
多樣化（Variety）：來(lái)源多、格式多；
快速化（Velocity）：高速數(shù)據(jù)I/O；
價(jià)值密度低（Value）

大數(shù)據(jù)基礎(chǔ)技術(shù)

一、工程技術(shù)

Hadoop介紹

Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架。
Hadoop的框架最核心的設(shè)計(jì)就是：HDFS和MapReduce。HDFS 實(shí)現(xiàn)存儲(chǔ),而 MapReduce實(shí)現(xiàn)分析處理。

關(guān)系型數(shù)據(jù)庫(kù)Hadoop

數(shù)據(jù)量	GB	PB
使用場(chǎng)景	點(diǎn)查詢或更新	整個(gè)數(shù)據(jù)集，一次寫多次讀，沒(méi)有更新
結(jié)構(gòu)化程度	結(jié)構(gòu)化	半結(jié)構(gòu)化及非結(jié)構(gòu)化
擴(kuò)展性	線性	非線性

Hadoop和網(wǎng)格計(jì)算的區(qū)別：
網(wǎng)格計(jì)算：CPU密集型，各個(gè)處理單元接收小批量數(shù)據(jù)，然后貢獻(xiàn)CPU，最后提交計(jì)算結(jié)果；
Hadoop：數(shù)據(jù)本地化，傳輸數(shù)據(jù)量較大，對(duì)網(wǎng)絡(luò)帶寬要求較高。

HDFS（Hadoop Distributed File System）基本命令：
%hadoop fs -ls .
%hadoop fs -mkdir books
%hadoop fs -copyFromLocal input/docs/test.txt hdfs://loca1host/user/tom/test.txt

HDFS特點(diǎn)
1.流式訪問(wèn)：
跑在HDFS上的應(yīng)用與一般的應(yīng)用不同，它們主要是以流式讀為主，做批量處理；比之關(guān)注數(shù)據(jù)訪問(wèn)的低延遲問(wèn)題，更關(guān)鍵的在于數(shù)據(jù)訪問(wèn)的高吞吐量。
2.write-one-read-many
一個(gè)文件經(jīng)過(guò)創(chuàng)建、寫，關(guān)閉之后就不需要改變。這一假設(shè)簡(jiǎn)化了數(shù)據(jù)一致性問(wèn)題，使高吞吐量的數(shù)據(jù)訪問(wèn)成為可能。
3.本地計(jì)算
移動(dòng)計(jì)算的代價(jià)比之移動(dòng)數(shù)據(jù)的代價(jià)低。一個(gè)應(yīng)用請(qǐng)求的計(jì)算，離它操作的數(shù)據(jù)越近就越高效。將計(jì)算移動(dòng)到數(shù)據(jù)附近，比之將數(shù)據(jù)移動(dòng)到應(yīng)用所在顯然更好，HDFS提供給應(yīng)用這樣的接口。
4.容錯(cuò)及備份
Hadoop有健壯的數(shù)據(jù)校驗(yàn)+容災(zāi)備份。通過(guò)配置解決

HIVE
定義：一個(gè)構(gòu)建在Hadoop上的數(shù)據(jù)倉(cāng)庫(kù)框架。
目的：可以通過(guò)類SQL語(yǔ)句快速實(shí)現(xiàn)簡(jiǎn)單的MapReduce統(tǒng)計(jì)，使熟悉SQL的用戶無(wú)縫使用Hadoop。
特點(diǎn)：語(yǔ)法基本和MySQL相同，但是功能沒(méi)有MySQL豐富，滿足最基本的SQL語(yǔ)法要求。

HIVE的實(shí)現(xiàn)邏輯

select year,count(temperature) from src where year>1990 group by year having count(temperature)>1000;

這個(gè)sql的語(yǔ)義是：
1）(map)從src表中選出所有的記錄,選出year>1990的記錄；
2）(partition and shuffle)按照year進(jìn)行分組（year相同的記錄放到一組）；
3）(reduce)對(duì)每個(gè)分組計(jì)算count(temperature),選出count(temperature)>1000的記錄；
4）最后對(duì)于計(jì)算結(jié)果選出year和count(temperature)的值作為返回結(jié)果

小結(jié)：

二、策略技術(shù)
機(jī)器學(xué)習(xí)中經(jīng)典算法和對(duì)應(yīng)問(wèn)題

有監(jiān)督學(xué)習(xí)：對(duì)具有概念標(biāo)記（分類）的訓(xùn)練樣本進(jìn)行學(xué)習(xí)，以盡可能對(duì)訓(xùn)練樣本集外的數(shù)據(jù)進(jìn)行標(biāo)記（分類）預(yù)測(cè)。這里，所有的標(biāo)記（分類）是已知的。無(wú)監(jiān)督學(xué)習(xí)：對(duì)沒(méi)有概念標(biāo)記（分類）的訓(xùn)練樣本進(jìn)行學(xué)習(xí)，以發(fā)現(xiàn)訓(xùn)練樣本集中的結(jié)構(gòu)性知識(shí)。這里，所有的標(biāo)記（分類）是未知的。因此，訓(xùn)練樣本的岐義性高。聚類就是典型的無(wú)監(jiān)督學(xué)習(xí)
定量輸出稱為回歸，或者說(shuō)是連續(xù)變量預(yù)測(cè)；定性輸出稱為分類，或者說(shuō)是離散變量預(yù)測(cè)。

典型應(yīng)用

精準(zhǔn)營(yíng)銷：廣告變現(xiàn)

精準(zhǔn)營(yíng)銷：推薦引擎

實(shí)時(shí)監(jiān)控：上海外灘踩踏事件

智能鏈接：互聯(lián)網(wǎng)+O2O

智能鏈接：互聯(lián)網(wǎng)+O2O：Uber

輔助決策：智能選股

輔助決策：智能選址

總結(jié)

本文參考自牛客網(wǎng)。

總結(jié)

以上是生活随笔為你收集整理的大数据基础技术和应用的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：将visio的图片插入latex（png
下一篇： Hadoop 大数据平台架构与实践