日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

大数据基础技术和应用

發(fā)布時(shí)間:2023/11/30 编程问答 54 豆豆
生活随笔 收集整理的這篇文章主要介紹了 大数据基础技术和应用 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

大數(shù)據(jù)概述

數(shù)據(jù)的表現(xiàn)形式:

  • 線下數(shù)據(jù)信息化:數(shù)據(jù)庫(kù)、文字記錄、照片……
  • 互聯(lián)網(wǎng)-移動(dòng)互聯(lián)網(wǎng):網(wǎng)頁(yè)數(shù)據(jù)、用戶行為記錄、數(shù)字圖像……
  • 傳感器:設(shè)備監(jiān)控、智能家居、攝像頭……

大數(shù)據(jù)的4V特征:

  • 大量化(Volume):存儲(chǔ)量大、增量大;
  • 多樣化(Variety):來(lái)源多、格式多;
  • 快速化(Velocity):高速數(shù)據(jù)I/O;
  • 價(jià)值密度低(Value)

大數(shù)據(jù)基礎(chǔ)技術(shù)


一、工程技術(shù)

Hadoop介紹

Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架。
Hadoop的框架最核心的設(shè)計(jì)就是:HDFS和MapReduce。HDFS 實(shí)現(xiàn)存儲(chǔ),而 MapReduce實(shí)現(xiàn)分析處理。

關(guān)系型數(shù)據(jù)庫(kù)Hadoop
數(shù)據(jù)量GBPB
使用場(chǎng)景點(diǎn)查詢或更新整個(gè)數(shù)據(jù)集,一次寫多次讀,沒(méi)有更新
結(jié)構(gòu)化程度結(jié)構(gòu)化半結(jié)構(gòu)化及非結(jié)構(gòu)化
擴(kuò)展性線性非線性

Hadoop和網(wǎng)格計(jì)算的區(qū)別:
網(wǎng)格計(jì)算:CPU密集型,各個(gè)處理單元接收小批量數(shù)據(jù),然后貢獻(xiàn)CPU,最后提交計(jì)算結(jié)果;
Hadoop:數(shù)據(jù)本地化,傳輸數(shù)據(jù)量較大,對(duì)網(wǎng)絡(luò)帶寬要求較高。

HDFS(Hadoop Distributed File System)基本命令:
%hadoop fs -ls .
%hadoop fs -mkdir books
%hadoop fs -copyFromLocal input/docs/test.txt hdfs://loca1host/user/tom/test.txt

HDFS特點(diǎn)
1.流式訪問(wèn):
跑在HDFS上的應(yīng)用與一般的應(yīng)用不同,它們主要是以流式讀為主,做批量處理;比之關(guān)注數(shù)據(jù)訪問(wèn)的低延遲問(wèn)題,更關(guān)鍵的在于數(shù)據(jù)訪問(wèn)的高吞吐量。
2.write-one-read-many
一個(gè)文件經(jīng)過(guò)創(chuàng)建、寫,關(guān)閉之后就不需要改變。這一假設(shè)簡(jiǎn)化了數(shù)據(jù)一致性問(wèn)題,使高吞吐量的數(shù)據(jù)訪問(wèn)成為可能。
3.本地計(jì)算
移動(dòng)計(jì)算的代價(jià)比之移動(dòng)數(shù)據(jù)的代價(jià)低。一個(gè)應(yīng)用請(qǐng)求的計(jì)算,離它操作的數(shù)據(jù)越近就越高效。將計(jì)算移動(dòng)到數(shù)據(jù)附近,比之將數(shù)據(jù)移動(dòng)到應(yīng)用所在顯然更好,HDFS提供給應(yīng)用這樣的接口。
4.容錯(cuò)及備份
Hadoop有健壯的數(shù)據(jù)校驗(yàn)+容災(zāi)備份。通過(guò)配置解決

HIVE
定義:一個(gè)構(gòu)建在Hadoop上的數(shù)據(jù)倉(cāng)庫(kù)框架。
目的: 可以通過(guò)類SQL語(yǔ)句快速實(shí)現(xiàn)簡(jiǎn)單的MapReduce統(tǒng)計(jì),使熟悉SQL的用戶無(wú)縫使用Hadoop。
特點(diǎn):語(yǔ)法基本和MySQL相同,但是功能沒(méi)有MySQL豐富,滿足最基本的SQL語(yǔ)法要求。

HIVE的實(shí)現(xiàn)邏輯

select year,count(temperature) from src where year>1990 group by year having count(temperature)>1000;

這個(gè)sql的語(yǔ)義是:
1)(map)從src表中選出所有的記錄,選出year>1990的記錄;
2)(partition and shuffle)按照year進(jìn)行分組(year相同的記錄放到一組);
3)(reduce)對(duì)每個(gè)分組計(jì)算count(temperature),選出count(temperature)>1000的記錄;
4)最后對(duì)于計(jì)算結(jié)果選出year和count(temperature)的值作為返回結(jié)果

小結(jié):

二、策略技術(shù)
機(jī)器學(xué)習(xí)中經(jīng)典算法和對(duì)應(yīng)問(wèn)題

有監(jiān)督學(xué)習(xí):對(duì)具有概念標(biāo)記(分類)的訓(xùn)練樣本進(jìn)行學(xué)習(xí),以盡可能對(duì)訓(xùn)練樣本集外的數(shù)據(jù)進(jìn)行標(biāo)記(分類)預(yù)測(cè)。這里,所有的標(biāo)記(分類)是已知的。無(wú)監(jiān)督學(xué)習(xí):對(duì)沒(méi)有概念標(biāo)記(分類)的訓(xùn)練樣本進(jìn)行學(xué)習(xí),以發(fā)現(xiàn)訓(xùn)練樣本集中的結(jié)構(gòu)性知識(shí)。這里,所有的標(biāo)記(分類)是未知的。因此,訓(xùn)練樣本的岐義性高。聚類就是典型的無(wú)監(jiān)督學(xué)習(xí)
定量輸出稱為回歸,或者說(shuō)是連續(xù)變量預(yù)測(cè);定性輸出稱為分類,或者說(shuō)是離散變量預(yù)測(cè)。


典型應(yīng)用


  • 精準(zhǔn)營(yíng)銷:廣告變現(xiàn)
  • 精準(zhǔn)營(yíng)銷:推薦引擎
  • 實(shí)時(shí)監(jiān)控:上海外灘踩踏事件
  • 智能鏈接:互聯(lián)網(wǎng)+O2O
  • 智能鏈接:互聯(lián)網(wǎng)+O2O:Uber
  • 輔助決策:智能選股

  • 輔助決策:智能選址
  • 總結(jié)

    本文參考自牛客網(wǎng)。

    總結(jié)

    以上是生活随笔為你收集整理的大数据基础技术和应用的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。