當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

《大数据技术原理与应用》林子雨期末复习重点（总结）

發布時間：2023/12/10 编程问答 80 豆豆

生活随笔收集整理的這篇文章主要介紹了《大数据技术原理与应用》林子雨期末复习重点（总结）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

一、

1、數據產生方式大致經歷了3個階段：運營式系統階段、用戶原創內容階段、感知式系統階段。?

2、大數據的特點:數據量大（volume）、數據類型繁多（variety）、處理速度快（velocity）、價值密度低（value）；4V+1C （C：復雜度 complexity）。

3、云計算的特點：超大規模、虛擬化、高可靠性、通用性、高可伸縮性、按需服務、極其廉價。

4、科學研究方面經歷的4種范式：實驗、理論、計算、數據。

5、大數據四種計算模式:批量計算(針對大規模數據的批量數據)；流計算(針對流計算的實時計算)；圖計算(針對大規模圖結構數據的處理)；查詢分析計算(大規模數據的存儲管理和查詢分析)。

6、數據總體上可以分為靜態數據和流數據。

7、對靜態數據和流數據的處理，對應著兩種截然不同的計算模式：批量計算和實時計算。

8、Hadoop的特性：高可靠性、高效性、高擴展性、高容錯性、成本低、運行在Linux平臺上、支持多種編程語言。

9、Hadoop的核心子項目：HDFS和MapReduce。HDFS 2.0的新特性HDFS HA和HDFS聯邦。

10、YARN體系結構中的三個組件：ResourceManager、ApplicationMaster和NodeManager。

二、

1、分布式文件系統是一種通過網絡實現文件在多臺主機上進行分布式存儲的文件系統。

2、名稱節點：名稱節點也叫主節點，負責管理分布式文件系統的命名空間，負責文件和目錄的創建、刪除和重命名等，同時管理著數據節點和文件塊的映射關系。

? ? ? 數據節點：數據節點也叫從節點，負責數據的存儲和讀取，在存儲時，有名稱節點分配存儲位置，然后由客戶端把數據直接寫入相應的數據節點。

? ? ? 第二名稱節點：完成EditLog合并到FsImage的過程，縮短合并的重啟時間，其次作為“檢查點”保存元數據的信息。

3、HDFS體系結構：HDFS采用了主從結構模型，一個HDFS集群包括一個名稱節點和若干個數據節點。

4、數據的冗余存儲：作為一個分布式文件系統，為了保證系統的容錯性和可用性，HDFS采用了多副本方式對數據進行冗余存儲，通常一個數據塊的多個副本會被分不到不同的數據節點上，數據塊1被分別存放到數據節點A和C上，數據塊2被存放在數據節點A和B上。(多副本存儲:名稱節點保存的元數據被分割成1、2、3、4、5個數據塊，并復制多個副本分別保存在不同數據節點上。

? ? 有3個優點：

? ? (1)加快數據傳輸速度。當多個客戶端需要同時訪問同一個文件時，可以讓各個客戶端分別從不同的數據塊副本中讀取數據，這就大大加快了傳輸速度。

? ? (2)容易檢查數據錯誤。HDFS的數據節點之間通過網絡傳輸數據，采用多個副本可以很容易判斷數據傳輸是否出錯

? ? (3)保證數據的可靠性。即使某個數據節點出現故障失效，也不會造成數據丟失。

5、HBase采用行鍵、列族、列限定符和時間戳進行索引。

? ? ?HBase的功能組件：庫函數、一個Master主服務器、許多個Region服務器。

? ? ?HBase的系統架構：客戶端、Zookeeper服務器、Master主服務器、Region服務器。

? ? ?Zookeeper服務器：并非一臺單一的機器，可能是由多臺機器構成的集群來提供穩定可靠的協同服務。

6、Region服務器工作原理：1)用戶讀寫數據過程。當用戶寫入數據時，被分配到相應的Region服務器去執行；用戶數據首先寫入到MemStore和HLog中。當用戶讀取數據時，Region服務器首先訪問MemStore緩存，如找不到，再去磁盤上的StoreFile中尋找。2）緩存的刷新。系統周期性地把MemStore緩存里的內容刷寫到磁盤的StoreFile文件中，清空緩存，并在Hlog里寫入一個標記。每次刷寫都生成一個新的StoreFile文件。每個Region服務器都有自己的HLog文件，每次啟動檢查該文件，確定最近一次執行緩存刷新之后是否發生新的寫入；若發現更新，先寫入MemStore再刷寫到MemStore，最后刪除舊的HLog文件，開始為用戶提供服務。3）StoreFile的合并。每次刷寫生成一個新的StoreFile，調用Store.compact()把多個合并成一個。

7、NoSQL數據庫特點：靈活的可擴展性、靈活的數據類型、與云計算緊密融合。

? ? ?關系數據庫主要表現：無法滿足海量數據的管理需求；無法滿足數據高并發的需求；無法滿足高可擴展性和高可用性的需求。

8、NoSQL四大類型：鍵值數據庫、列族數據庫、文檔數據庫、圖形數據庫。

NoSQL三大基石：CAP、BASE、最終一致性。

CAP原則：C：一致性（Consistency）。它是指任何一個讀操作總是能夠讀到之前完成的寫操作的結果，也就是在分布式環境中，多點的數據是一致的。A：可用性（Availability）。它是指快速獲取數據，可以在確定的時間內返回操作結果。P：分區容錯性（Partition tolerance）。它是指當出現網絡分區的情況時，分離的系統也能夠正常運行。CAP原則指這三個要素最多只能同時實現兩點，不可能三者兼顧。

ACID原則：A：原子性（Atomicity）。它是指事務必須是原子工作單位，對于其數據修改，要么全都執行，要么全都不執行。C：一致性（Consistency）。它是指事務在完成時，必須使所有的數據都保持一致狀態。I：隔離性（Isolation）。它是指由并發事務所做的修改必須與任何其他并發事務所做的修改隔離。D：持久性（Durability）。它是指事務完成后，它對于系統的影響是永久性的，該修改即使出現致命的系統故障也將一直保持。

BASE理論：基本可用（Basically Available）、軟狀態（Soft State）、

? ? ? ? ? ? ? ? ? ? ?最終一致性（Eventually?Consistent）。

9、云數據庫：云計算庫是部署和虛擬化在云計算環境中的數據庫，是在云計算的大背景下發展起來的一種新興的共享基礎架構的方法，它極大地增強了數據庫的存儲能力，消除了人員、硬件、軟件的重復配置，讓軟、硬件升級變得更加容易，同時也虛擬化了許多后端功能。云數據庫具有高擴展性、高可用性、采用多租形式和支持資源有效分發等特點。

? ? ? 云數據庫特性：動態可擴展、高可用性、較低的使用代價、易用性、高性能、免維護、安全。

10、Spark的4個主要特點：①運行速度快②容易使用③通用性④運行模式多樣

Spark的優點：①Spark的計算模式也屬于MapReduce，但不局限于Map和Reduce操作，還提供了多種數據集操縱類型，編程模型比MapReduce更靈活。②Spark提供了內存計算，中間結果直接放到內存中，帶來了更高的迭代運算效率。③Spark基于DAG的任務調度執行機制，要優于MapReduce的迭代執行機制。

RDD概念：RDD叫做彈性分布式數據集，是Spark中最基本的數據抽象，它代表一個不可變、可分區、里面的元素可并行計算的集合。

寬依賴、窄依賴：窄依賴表現為一個父RDD的分區對應于一個子RDD的分區，或多個父RDD的分區對應于一個子RDD的分區。寬依賴則表現為存在一個父RDD的一個分區對應一個子RDD的多個分區。

11、Storm的特點：①整合性②簡易的API③可擴展性④容錯性⑤可靠的消息處理⑥支持各種編程語言⑦快速部署⑧免費、開源。

? ? ? ?Storm的主要術語：Streams、Spouts、Bolts、Topology和Stream Groupings

? ? ? ?Spark Steaming和Storm最大的區別在于，Spark Steaming無法實現毫秒級的流計算，? ? ? ? ? ? ? ? ? 而?Storm則可以實現毫秒級響應。

12、Pregel圖計算模型包括有向圖和頂點、頂點之間的消息傳遞以及Pregel的計算過程，最后給出一個簡單的實例。

13、PageRank算法在Pregle和MapReduce中實現的比較：①Pregel將PagRank處理對象看成連通圖，而MapReduce則將其看成鍵值對。②Pregel將計算細化到頂點，同時在頂點內控制循環迭代次數，而MapReduce則計算批量化處理，按任務進行循環迭代控制。③圖算法如果用MapReduce實現，需要一系列的MapReduce的調用。從一個階段到下一個階段，它需要傳遞整個圖的狀態，會產生大量不必要的序列化和反序列化開銷。而Pregel使用超步簡化了這個過程。

14、數據可視化是指將大型數據集中的數據以圖形圖像形式表示，并利用數據分析和開發工具發現其中未知信息的處理過程。

15、協同過濾推薦是指推薦系統中應用最早和成為成功的技術之一。

三、

1、Map和Reduce函數的關系

Map和reduce都是以<key，value>作為輸入，按一定的映射規則轉換成另一個或一批<key，value>進行輸出。

Map：輸入<k1，v1>；輸出：List<k2，v2>；過程：1.將小數據集進一步解析成一批<key,value>對，輸入map函數進行處理 2.每一個輸入的<k1,v1>會輸出一批<k2,v2>,<k2,v2>是計算的中間結果。

Reduce：輸入<k2,List(v2)>；輸出：<k3,v3>；過程:輸入的中間結果<k2，List（v2）>中的List（v2）表示是一批屬于同一個k2的value。

2、Map端的shuffle過程

①.輸入數據和執行Map任務 2.寫入緩存 3.溢寫（分區，排序和合并）4.文件歸并

? ? ?Reduce端的shuffle過程

①“領取”數據 2.歸并數據 3.將數據輸入給reduce任務

3、簡述HDFS HA

? 在一個典型的HA集群中，一般設置兩個名稱節點，其中一個名稱節點處于“活躍”狀態，另一個處于“待命”狀態。處于活躍狀態的名稱節點負責對外處理所有客戶端的請求，而處于待命狀態的名稱節點則作為備用節點，保存了足夠多的系統的元數據，當名稱節點出現故障時提供快速恢復力。也就是說，在HDFS HA中，處于待命狀態的名稱節點提供了“熱備份”，一旦活躍名稱節點出現故障，就可以立即切換到待命名稱節點，不會影響系統的正常對外服務。

3、簡述HDFS聯邦（解決了可擴展性、系統性能、隔離性三個問題）

? ①在HDFS聯邦中，設計了多個相互獨立的名稱節點，使得HDFS的命名服務能夠水平擴展，這些名稱節點分別進行各自命名空間和塊的管理，相互之間是聯邦關系，不需要彼此協調。②HDFS聯邦中的名稱節點提供了命名空間和塊掛辦理功能。③HDFS聯邦擁有多個獨立的命名空間，其中，每一個命名空間管理屬于自己的一組塊。

4、數據存取策略：包括數據存放、數據讀取和數據復制等方面，是分布式文件系統的核心內容。? ? ? ?（1）數據存放：HDFS采用了以機架為基礎的數據存放策略，一個HDFS通常包含多個機架，不同機架之間的數據通信需要經過交換機或者路由器，同一個機架中不同機器之間的通信則不需要經過交換機和路由器。HDFS默認的冗余因子是3，每個文件塊會被同事保存到3個地方，其中，2副本放在同一個機架的不同機器上，第三個副本放在不同的機架機器上。

? ? ?（2）數據讀取，HDFS提供了一個API可以確定一個數據節點所屬的機架ID，客戶端也可以調用API獲取自己所屬的機架ID。當客戶端讀取數據時，從名稱節點獲得數據塊不同副本的存放位置列表，列表中包含了副本所在的數據節點，可以調用API來確定客戶端和這些數據節點所屬的機架ID。

? ? ?（3）數據復制：采用流水線復制的策略。客戶端要往HDFS中寫入一個文件時，這個文件會首先被寫入本地，并被切分為若干個塊，每個塊都向HDFS集群中的名稱節點發起寫請求，名稱節點根據系統中各個數據節點的使用情況，選擇一個數據節點列表返回給客戶端，然后客戶端把數據首先寫入列表中的第一個數據節點，同時把列表傳給第一個數據節點，第一個數據節點收到時寫入本地，并向第二個數據節點發起鏈、連接請求，把數據和列表傳給第二個數據節點，依次類推，列表中多個數據節點形成一條數據復制的流水線。最后，文件寫完的時候，數據復制也同時完成。

總結

以上是生活随笔為你收集整理的《大数据技术原理与应用》林子雨期末复习重点（总结）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： html突出显示,javascript-
下一篇： LT8918 BT1120转mipi d

编程问答

《大数据技术原理与应用》林子雨 期末复习重点（总结）

總結

《大数据技术原理与应用》林子雨期末复习重点（总结）