當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据导论三——大数据技术

發布時間：2023/12/14 编程问答 52 豆豆

生活随笔收集整理的這篇文章主要介紹了大数据导论三——大数据技术小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

大數據技術層面及其功能?

數據采集和預處理（功能）

利用ETL工具將分布的數據，抽取到臨時中間層后進行處理，最后加載到數據倉庫中，成為聯機分析處理、數據挖掘的基礎；

利用日志采集工具把實時采集的數據作為流計算的輸入，進行實時處理分析；

利用網頁爬蟲程序到互聯網網站中爬取數據。

數據存儲和管理（功能）

利用分布式文件系統、數據倉庫、關系數據庫、NoSQL數據庫、云數據庫等實現對結構化、半結構化和非結構化海量數據的存儲和管理。

數據處理和分析（功能）

利用分布式并行編程模型和計算框架，結合機器學習和數據挖掘算法，實現對海量數據的處理和分析。

數據可視化（功能）

對分析結果進行可視化呈現，幫助人們更好的理解數據、分析數據。

數據安全和隱私保護（功能）

在從大數據中挖掘潛在的巨大商業價值和學術價值的同時，構建隱私數據保護體系和數據安全體系，有效保護個人隱私和數據安全。

數據采集

DAQ，又稱數據獲取，它通過各種技術手段把外部各種數據源產生的數據進行實時或非實時的采集，獲得各種類型的結構化、半結構化以及非結構化的海量數據并加以利用。

三大要點：全面性、多維性、高效性

數據分類

結構化信息：傳統的關系型數據庫，可用二維表結構表示；

半結構化信息：類似XML之類，數據結構和內容混雜在一起；

非結構化信息：各種文檔、圖片、視頻等；

數據采集方式

離線采集、實時采集、互聯網采集

數據采集數據源

傳感器：是一種檢測裝置、能感受到被測量的信息；

互聯網數據：互聯網數據采集是借助網絡爬蟲來實現的，通過網頁數據的定向抓取，將非結構化的數據從網頁中抽取出來，并以結構化的方式存儲在本地；

企業業務系統數據：企業每時每刻產生的業務數據，以數據庫一行記錄的形式，被直接寫入到數據庫中，企業使用傳統關系數據庫MySQL和oracle來存儲業務系統數據。

日志文件：日志文件系統一般由數據源系統產生，用于記錄數據源的執行的各種操作活動。

常用日志系統采集工具

chukwa，apache提出了chukwa的方法

flume，一個可靠性和可用性非常高的日志系統，支持分布式的海量日志采集、聚合和傳輸，具有寫到各種數據接收方的能力

scribe，日志收集系統，容錯性很好，facebook

kafka，高吞吐的分布式發布訂閱消息系統，可以處理大規模網站中的所有動作流數據

數據清洗

檢查數據一致性、處理無效值、缺失值

需要清洗的數據主要類型：殘缺數據、錯誤數據、重復數據

數據清洗的內容：一致性檢查、無效值和缺失值的處理

數據清理方法：整列刪除、變量刪除、成對刪除、估算

數據存儲概述

一個是存儲量需求越來越大、一個是對數據的有效管理提出了更高的要求

傳統數據存儲技術

傳統數據存儲和管理一般以結構化數據為主，數據庫和文件系統是主流技術

文件系統

是操作系統用于明確存儲設備或分區上的文件的方法和數據結構，即存儲設備上組織文件的方法；

文件系統由三部分組成：文件系統的接口，對對象操縱和管理的軟件集合，對象及屬性；

關系數據庫

數據庫是指以一定方式存儲在一起，能為多個用戶共享、具有盡可能小的冗余度、與應用程序彼此獨立的數據集合；目前比較主流的數據庫是關系數據庫，采用了關系數據模型來組織和管理數據。

數據倉庫

數據倉庫是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合，用于支持管理決策。

并行數據庫

指那些在無共享的體系中進行數據操作的數據庫系統。

大部分采用了關系數據模型并且支持SQL語句查詢，為了能夠并行執行SQL的查詢操作，系統中采用了兩個關鍵技術：關系表的水平劃分和SQL查詢的分區執行。

大數據時代的存儲技術

分布式系統、NoSQL、NewSQL

分布式系統：一種通過網絡實現文件在多臺主機上進行分布式存儲的文件系統

NoSQL：對非關系數據庫的統稱，類似鍵值、列族、文檔等非關系模型；沒有固定表結構、具有靈活的水平可擴展性、支持海量數據存儲；具有三個特點：靈活的可擴展性、靈活的數據模型、與云計算緊密結合

NewSQL數據庫：對各種可擴展、高性能數據庫的簡稱

大數據處理分析技術方法

?可視化

可視化面臨的挑戰

計算能力：大數據時代數據流爆發式增長帶來的數據計算和處理能力的挑戰；

感知能力和認知能力的局限性：人類視覺強大，但是又十分有限

顯示能力：主要局限于二維屏幕空間

數據安全技術

身份認證技術、訪問控制技術、加密技術、防火墻技術、入侵檢測技術

隱私保護技術

如何在不泄露用戶隱私的前提下，提高大數據的利用率，挖掘大數據的價值，是目前大數據研究領域的關鍵問題；

數據水印保護原創

大數據生命周期的隱私保護模型

隱私保護的生命周期模型有主要幾個階段

數據發布、數據存儲、數據挖掘、數據使用

數據發布：與傳統針對隱私保護進行的數據發布手段相比，大數據發布面臨的風險是大數據的發布是動態的，且針對同一用戶的數據來源眾多、總量巨大；

數據存儲：云存儲服務商并不保證完全可信，用戶的數據面臨被不可信的第三方偷竊或者篡改的風險

數據挖掘：由于數據存在來源多樣性和動態性等特點，經過匿名處理后，經過大數據關聯分析、聚類等挖掘方法后，依然可以分析用戶隱私；

數據使用：在大數據環境下，如何確保合適的數據及屬性能夠在合適時間地點訪問和使用，是主要風險。現在主要技術：時刻融合的角色訪問控制、基于屬性集加密訪問控制、基于密文策略屬性集的加密。

總結

以上是生活随笔為你收集整理的大数据导论三——大数据技术的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。