當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

大数据采集与处理期末复习题

發布時間：2023/12/10 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了大数据采集与处理期末复习题小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

填空：

數據產生方式經歷的階段：運營式系統階段、用戶原創內容階段和感知式系統階段

大數據的四個特點：數據量大、數據類型繁多、處理速度快和價值密度低。

大數據的四種范式：實驗、理論、計算、數據密集型

大數據計算模式：批處理計算、流計算、圖計算、查詢分析計算

Hadoop的特性：高可靠性、高效性、高可擴展性、高容錯性、成本低、運行在Linux平臺上、支持多種編程語言

Hadoop的核心：HDFS和MapReduce

分布式文件系統的節點：一類叫主節點（名稱節點）或從節點（數據節點）

Hbase：采用行鍵、列族、列限定符和時間戳進行索引

Hbase：三個主要的功能組件：庫函數，鏈接到每個客戶端；一個Master主服務器；許多個Region服務器

Hbase：三層結構 Zookeeper文件 -ROOT-表 .META.表

Hbase系統架構：客戶端、Zookeeper服務器、Master主服務器、Region服務器，一般采用HDFS作為底層數據存儲

NoSQL數據庫三個特點：靈活的可擴展性、靈活的數據模型、與云計算緊密融合

關系數據庫無法滿足Web2.0的需求的三個方面：無法滿足海量數據的管理需求、無法滿足數據高并發的需求、無法滿足高可擴展性和高可用性的需求。

NoSQL的四大類型：鍵值數據庫、列族數據庫、文檔數據庫、圖數據庫

NoSQL三大基石：CAP、BASE和最終一致性

CAP指的是：C 一致性 A 可用性 P 分區容忍性三選二

數據庫事務具有ACID四性：A 原子性、C 一致性、I 隔離性、D 持久性

BASE基本含義：基本可用、軟狀態、最終一致性

云數據庫具有以下特性：動態可擴展、高可用性、較低的使用代價、易用性、高性能、免維護、安全

YARN體系機構中包含了三個組件：ResourceManager、 ApplicationMaster、 NodeManager

Spark四個特點：運行速度快、容易使用、通用性、運行模式多樣

Spark具有以下優點：Spark的計算模式也屬于MapReduce，但不局限于Map和Reduce操作，還提供了多數據集操作類型，編程模型比 MapReduce
Sperk提供了內存計算，中間結果之間放在內存中，帶來了更高的迭代執行機制
Sperk基于DAG的任務調度執行機制，要優于MapReduce的迭代執行機制

數據的兩種類型：靜態數據和流數據

計算模式：批量計算和實時計算

Storm主要術語：Streams、Spouts、Bolts、Topology、Stream Groupings

Spark Streaming和Storm最大的區別在于，Spark 無法實現毫秒級的流計算，而Storm則可以實現毫秒級響應。

Pregel圖計算模型：有向圖和頂點、頂點之間的消息傳遞、Pregel的計算過程

推薦方法：專家推薦、基于統計的推薦、基于內容的推薦、協同過濾推薦、混合推薦

名詞解釋：

分布式文件系統的概念：是一種通過網絡實現文件在多臺主機上進行分布式存儲的文件系統

HDFS：是Hadoop項目的核心子項目，是分布式計算中數據存儲管理的基礎，是基于流數據模式訪問和處理超大文件的需求而開發的，可以運行于廉價的商用服務器上。

名稱節點：負責管理分布式文件系統的命名空間，保存了兩個核心的數據結構，即FsImage和EditLog

數據節點：是分布式文件系統HDFS的工作節點，負責數據的存儲和讀取，會根據客戶端或者名稱節點的調度來進行數據的存儲和檢索，并且向名稱節點定期發送自己所存儲的塊的列表。

第二名稱節點：是HDFS架構的一個重要組成部分，具有兩個方面的功能：首先，可以完成EditLog與FsImage的合并操作，減小EditLog文件大小，縮短名稱節點重啟時間；其次，可以作為名稱節點的“檢查點”。

Zookeeper服務器：Zookeeper服務器并非一臺單一的機器，可能是由多臺機器構成的集群來提供穩定可靠的協同服務。Zookeeper不僅能夠幫助維護當前集群中機器的服務狀態，而且能夠幫助選出一個“總管”。讓這個總管來管理集群。

云數據庫的概念：云數據庫是部署和虛擬化在云計算環境中的數據庫，云數據庫是在云計算的大背景下發展起來的一種新興的共享基礎結構的方法，它極大地增強了數據庫的存儲能力，消除了人員、硬件、軟件的重復配置，讓軟、硬件升級變得更加容易，同時也虛擬化了許多后端功能。

RDD概念：是彈性分布式數據集的英文縮寫，是分布式內存的一個抽象概念，提供了一種高度受限的共享內存模型。

窄依賴：父RDD的一個分區只被一個子RDD的一個分區所使用就是窄依賴

寬依賴：父RDD的一個分區被一個子RDD的多個分區所使用就是寬依賴

什么是數據可視化：數據可視化是指將大型數據集中的數據以圖形圖像形式表示，并利用數據分析和開發工具發現其中未知信息的處理過程。數據可視化技術的基本思想是將數據庫中每一個數據項作為單個圖元素表示，大量的數據集構成數據圖像，同時將數據的各個屬性值以多維數據的形式表示，可以從不同的維度觀察數據，從而對數據進行更深入的觀察和分析。

協同過濾推薦：是推薦系統中應用最早和最為成功的技術之一。它一般采用最近鄰技術，利用用戶的歷史信息計算用戶之間的距離，然后利用目標用戶的最近鄰居用戶對商品的評價信息來預測目標用戶對特定商品的喜好程度，最后根據這一喜好程度對目標用戶進行推薦。

簡答題：

數據存取策略原理：數據存取策略包括數據存放、數據讀取和數據復制等方面，它在很大程度上會影響到整個分布式文件系統的讀寫性能，是分布式文件系統的核心內容。

Region服務器的工作原理：Region服務器內部管理一系列Region對象和一個Hlog文件，其中，Hlog是磁盤上面的記錄文件，它記錄著所有的更新操作，每個Region對象又是由多個Store組成的，每個Store對應了表中的一個列族的存儲。每個Store又包含了MemStore和若干個StoreFile，其中，MemStore是在內存中的緩存。

Map函數的輸入來自于分布式文件系統的文件塊，這些文件塊的格式是任意的，可以是文檔，也可以是二進制格式的。文件塊是一系列元素的集合，這些元素也是任意類型的，同一個元素不能跨文件存儲。Map函數將輸入的元素轉換成<key,value>形式的鍵值對，鍵和值的類型也是任意的，其中鍵不同于一般的標志屬性，即鍵沒有唯一性，不能作為輸出的身份標識，即使是同一輸入元素，也可通過一個Map任務生成具有相同鍵的多個<key,value>
Reduce函數的任務就是將輸入的一系列具有相同鍵的鍵值對以某種方式組合起來，輸出處理后的鍵值對，輸出結果會合并成一個文件。用戶可以指定Reduce任務的個數，并通知實現系統，然后主控進程通常會選擇一個Hash函數，map任務輸出的每個鍵都會經過Hash函數計算，并根據哈希結果將該鍵值對輸入相應的Reduce任務來處理。對于處理鍵為k的Reduce任務的輸入形式為<k,<v1,v2,…vn>>,輸出為<k,v>.

Map端的Shuffle過程：Map端的輸出結果首先會被與入到緩存中（比磁盤效率高），
當緩存滿時（80%寫入后），就會啟動流與擲作；溢寫操作會清空內容，把內容寫入到磁盤空間。每次溢寫操作會寫一個磁盤文件(key,value)，當Map程序運行完成后，會把這個Map程序產生的溢寫文件歸并成一個大的文件(key,value1,value2,…)，然后通知Reduce端來取數據

HDFS HA新特性：在一個典型的HA集群中，一般設置兩個名稱節點，其中一個名稱節點處于“活躍”狀態，另一個處于“待命”狀態。處于活躍狀態的名稱節點負責對外處理所有客戶端的請求，而處于待命狀態的名稱節點則作為備用節點，保存了足夠多的系統元數據，當名稱節點出現故障時提供快速回復能力也就是說，在HDFS HA中，處于待命狀態的名稱節點提供了“熱備份”，一旦活躍名稱節點出現故障，就可以立即切換到待命名稱節點，不會影響到系統的正常對外服務。

總結

以上是生活随笔為你收集整理的大数据采集与处理期末复习题的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： javame学习_从零基础自学Java教
下一篇： P2685 [TJOI2012]桥