當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

大数据技术原理与应用第1章大数据概述

發(fā)布時(shí)間：2023/12/10 编程问答 51 豆豆

生活随笔收集整理的這篇文章主要介紹了大数据技术原理与应用第1章大数据概述小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

云計(jì)算：基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式，通常涉及通過互聯(lián)網(wǎng)來(lái)提供動(dòng)態(tài)易擴(kuò)展且經(jīng)常是虛擬化的資源。云是網(wǎng)絡(luò)、互聯(lián)網(wǎng)的一種比喻說(shuō)法。
云計(jì)算關(guān)鍵技術(shù)包括：虛擬化、分布式存儲(chǔ)、分布式計(jì)算、多租戶等。

物聯(lián)網(wǎng)：物物相連的互聯(lián)網(wǎng)，是互聯(lián)網(wǎng)的延伸，它利用局部網(wǎng)絡(luò)或互聯(lián)網(wǎng)等通信技術(shù)把傳感器、控制器、機(jī)器、人員和物等通過新的方式聯(lián)在一起，形成人與物、物與物相聯(lián)，實(shí)現(xiàn)信息化和遠(yuǎn)程管理控制。
物聯(lián)網(wǎng)中的關(guān)鍵技術(shù)包括識(shí)別和感知技術(shù)（二維碼、RFID、傳感器等）、網(wǎng)絡(luò)與通信技術(shù)、數(shù)據(jù)挖掘與融合技術(shù)等

虛擬化：是指通過虛擬化技術(shù)將一臺(tái)計(jì)算機(jī)虛擬為多臺(tái)邏輯計(jì)算機(jī)。在一臺(tái)計(jì)算機(jī)上同時(shí)運(yùn)行多個(gè)邏輯計(jì)算機(jī)，每個(gè)邏輯計(jì)算機(jī)可運(yùn)行不同的操作系統(tǒng)，并且應(yīng)用程序都可以在相互獨(dú)立的空間內(nèi)運(yùn)行而互不影響，從而顯著提高計(jì)算機(jī)的工作效率。

大數(shù)據(jù)：指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合，是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。

Hadoop
Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)（Hadoop Distributed File System），簡(jiǎn)稱HDFS。
HDFS有高容錯(cuò)性的特點(diǎn)，并且設(shè)計(jì)用來(lái)部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）來(lái)訪問應(yīng)用程序的數(shù)據(jù)，適合那些有著超大數(shù)據(jù)集（large data set）的應(yīng)用程序。HDFS放寬了（relax）POSIX的要求，可以以流的形式訪問（streaming access）文件系統(tǒng)中的數(shù)據(jù)。
Hadoop的框架最核心的設(shè)計(jì)就是：HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲(chǔ)，則MapReduce為海量的數(shù)據(jù)提供了計(jì)算。
Hadoop解決哪些問題？
海量數(shù)據(jù)需要及時(shí)分析和處理
海量數(shù)據(jù)需要深入分析和挖掘
數(shù)據(jù)需要長(zhǎng)期保存

海量數(shù)據(jù)存儲(chǔ)的問題：
磁盤IO稱為一種瓶頸，而非CPU資源
網(wǎng)絡(luò)帶寬是一種稀缺資源
硬件故障成為影響穩(wěn)定的一大因素

分布式存儲(chǔ)系統(tǒng)：是將數(shù)據(jù)分散存儲(chǔ)在多臺(tái)獨(dú)立的設(shè)備上。傳統(tǒng)的網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)采用集中的存儲(chǔ)服務(wù)器存放所有數(shù)據(jù)，存儲(chǔ)服務(wù)器成為系統(tǒng)性能的瓶頸，也是可靠性和安全性的焦點(diǎn)，不能滿足大規(guī)模存儲(chǔ)應(yīng)用的需要。分布式網(wǎng)絡(luò)存儲(chǔ)系統(tǒng)采用可擴(kuò)展的系統(tǒng)結(jié)構(gòu)，利用多臺(tái)存儲(chǔ)服務(wù)器分擔(dān)存儲(chǔ)負(fù)荷，利用位置服務(wù)器定位存儲(chǔ)信息，它不但提高了系統(tǒng)的可靠性、可用性和存取效率，還易于擴(kuò)展。

并行計(jì)算框架
并行計(jì)算或稱平行計(jì)算是相對(duì)于串行計(jì)算來(lái)說(shuō)的。它是一種一次可執(zhí)行多個(gè)指令的算法，目的是提高計(jì)算速度，以及通過擴(kuò)大問題求解規(guī)模，解決大型而復(fù)雜的計(jì)算問題。所謂并行計(jì)算可分為時(shí)間上的并行和空間上的并行。時(shí)間上的并行就是指流水線技術(shù)，而空間上的并行則是指用多個(gè)處理器并發(fā)的執(zhí)行計(jì)算。并行計(jì)算（Parallel Computing）是指同時(shí)使用多種計(jì)算資源解決計(jì)算問題的過程，是提高計(jì)算機(jī)系統(tǒng)計(jì)算速度和處理能力的一種有效手段。它的基本思想是用多個(gè)處理器來(lái)協(xié)同求解同一問題，即將被求解的問題分解成若干個(gè)部分，各部分均由一個(gè)獨(dú)立的處理機(jī)來(lái)并行計(jì)算。并行計(jì)算系統(tǒng)既可以是專門設(shè)計(jì)的、含有多個(gè)處理器的超級(jí)計(jì)算機(jī)，也可以是以某種方式互連的若干臺(tái)的獨(dú)立計(jì)算機(jī)構(gòu)成的集群。通過并行計(jì)算集群完成數(shù)據(jù)的處理，再將處理的結(jié)果返回給用戶。

Hadoop生態(tài)圈
Hadoop分布式文件系統(tǒng)(HDFS)被設(shè)計(jì)成適合運(yùn)行在通用硬件(commodity hardware)上的分布式文件系統(tǒng)。它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點(diǎn)。但同時(shí)，它和其他的分布式文件系統(tǒng)的區(qū)別也是很明顯的。HDFS是一個(gè)高度容錯(cuò)性的系統(tǒng)，適合部署在廉價(jià)的機(jī)器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問，非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。HDFS放寬了一部分POSIX約束，來(lái)實(shí)現(xiàn)流式讀取文件系統(tǒng)數(shù)據(jù)的目的。它提供了一次寫入多次讀取的機(jī)制，數(shù)據(jù)以塊的形式，同時(shí)分布在集群不同物理機(jī)器上。

MapReduce是一種編程模型，用于大規(guī)模數(shù)據(jù)集（大于1TB）的并行運(yùn)算。概念”Map（映射）”和”Reduce（歸約）”，是它們的主要思想，都是從函數(shù)式編程語(yǔ)言里借來(lái)的，還有從矢量編程語(yǔ)言里借來(lái)的特性。它極大地方便了編程人員在不會(huì)分布式并行編程的情況下，將自己的程序運(yùn)行在分布式系統(tǒng)上。當(dāng)前的軟件實(shí)現(xiàn)是指定一個(gè)Map（映射）函數(shù)，用來(lái)把一組鍵值對(duì)映射成一組新的鍵值對(duì)，指定并發(fā)的Reduce（歸約）函數(shù)，用來(lái)保證所有映射的鍵值對(duì)中的每一個(gè)共享相同的鍵組。

數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)庫(kù)：傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)的主要應(yīng)用，主要是基本的、日常的事務(wù)處理，例如銀行交易。

數(shù)據(jù)倉(cāng)庫(kù)：數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的主要應(yīng)用主要是OLAP（On-Line Analytical Processing），支持復(fù)雜的分析操作，側(cè)重決策支持，并且提供直觀易懂的查詢結(jié)果。

OLAP：聯(lián)機(jī)分析處理OLAP是一種軟件技術(shù)，它使分析人員能夠迅速、一致、交互地從各個(gè)方面觀察信息，以達(dá)到深入理解數(shù)據(jù)的目的。它具有FASMI(Fast Analysis of Shared Multidimensional Information)，即共享多維信息的快速分析的特征。其中F是快速性(Fast)，指系統(tǒng)能在數(shù)秒內(nèi)對(duì)用戶的多數(shù)分析要求做出反應(yīng)；A是可分析性(Analysis)，指用戶無(wú)需編程就可以定義新的專門計(jì)算，將其作為分析的一部分，并以用戶所希望的方式給出報(bào)告；M是多維性(Multi—dimensional)，指提供對(duì)數(shù)據(jù)分析的多維視圖和分析；I是信息性(Information)，指能及時(shí)獲得信息，并且管理大容量信息。

數(shù)據(jù)挖掘（英語(yǔ)：Data mining）：又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)（英語(yǔ)：Knowledge-Discovery in Databases，簡(jiǎn)稱：KDD)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān)，并通過統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)（依靠過去的經(jīng)驗(yàn)法則）和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。

大數(shù)據(jù)技術(shù)的不同層面及其功能
1、數(shù)據(jù)采集
利用ETL工具將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等，抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成，最后加載到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中，成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)；或者也可以把實(shí)時(shí)采集的數(shù)據(jù)作為流計(jì)算系統(tǒng)的輸入，進(jìn)行實(shí)時(shí)處理分析
2、數(shù)據(jù)存儲(chǔ)和管理
利用分布式文件系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)、關(guān)系數(shù)據(jù)庫(kù)、NoSQL數(shù)據(jù)庫(kù)、云數(shù)據(jù)庫(kù)等，實(shí)現(xiàn)對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的存儲(chǔ)和管理
3、數(shù)據(jù)處理與分析
利用分布式并行編程模型和計(jì)算框架，結(jié)合機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法，實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的處理和分析；對(duì)分析結(jié)果進(jìn)行可視化呈現(xiàn)，幫助人們更好地理解數(shù)據(jù)、分析數(shù)據(jù)
4、數(shù)據(jù)隱私和安全
在從大數(shù)據(jù)中挖掘潛在的巨大商業(yè)價(jià)值和學(xué)術(shù)價(jià)值的同時(shí)，構(gòu)建隱私數(shù)據(jù)保護(hù)體系和數(shù)據(jù)安全體系，有效保護(hù)個(gè)人隱私和數(shù)據(jù)安全

總結(jié)

以上是生活随笔為你收集整理的大数据技术原理与应用第1章大数据概述的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： oracle 命令日志输出,ORACLE
下一篇：海康大华网络摄像机搜索工具

编程问答

大数据技术原理与应用 第1章 大数据概述

總結(jié)

大数据技术原理与应用第1章大数据概述