當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

什么是spark的惰性计算?有什么优势?_spark——spark中常说RDD，究竟RDD是什么？

發布時間：2024/8/23 编程问答 42 豆豆

生活随笔收集整理的這篇文章主要介紹了什么是spark的惰性计算?有什么优势?_spark——spark中常说RDD，究竟RDD是什么？小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

本文始發于個人公眾號：TechFlow，原創不易，求個關注

今天是spark專題第二篇文章，我們來看spark非常重要的一個概念——RDD。

在上一講當中我們在本地安裝好了spark，雖然我們只有local一個集群，但是仍然不妨礙我們進行實驗。spark最大的特點就是無論集群的資源如何，進行計算的代碼都是一樣的，spark會自動為我們做分布式調度工作。

RDD概念

介紹spark離不開RDD，RDD是其中很重要的一個部分。但是很多初學者往往都不清楚RDD究竟是什么，我自己也是一樣，我在系統學習spark之前代碼寫了一堆，但是對于RDD等概念仍然云里霧里。

RDD的英文全名是Resilient Distributed Dataset，我把英文寫出來就清楚了很多。即使第一個單詞不認識，至少也可以知道它是一個分布式的數據集。第一個單詞是彈性的意思，所以直譯就是彈性分布式數據集。雖然我們還是不夠清楚，但是已經比只知道RDD這個概念清楚多了，

RDD是一個不可變的分布式對象集合，每個RDD都被分為多個分區，這些分區運行在集群的不同節點上。

很多資料里只有這么一句粗淺的解釋，看起來說了很多，但是我們都get不到。細想有很多疑問，最后我在大神的博客里找到了詳細的解釋，這位大神翻了spark的源碼，找到了其中RDD的定義，一個RDD當中包含以下內容：

A list of partitions
A function for computing each split
A list of dependencies on other RDDs
Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)

我們一條一條來看：

它是一組分區，分區是spark中數據集的最小單位。也就是說spark當中數據是以分區為單位存儲的，不同的分區被存儲在不同的節點上。這也是分布式計算的基礎。

一個應用在各個分區上的計算任務。在spark當中數據和執行的操作是分開的，并且spark基于懶計算的機制，也就是在真正觸發計算的行動操作出現之前，spark會存儲起來對哪些數據執行哪些計算。數據和計算之間的映射關系就存儲在RDD中。

RDD之間的依賴關系，RDD之間存在轉化關系，一個RDD可以通過轉化操作轉化成其他RDD，這些轉化操作都會被記錄下來。當部分數據丟失的時候，spark可以通過記錄的依賴關系重新計算丟失部分的數據，而不是重新計算所有數據。

一個分區的方法，也就是計算分區的函數。spark當中支持基于hash的hash分區方法和基于范圍的range分區方法。

一個列表，存儲的是存儲每個分區的優先存儲的位置。

通過以上五點，我們可以看出spark一個重要的理念。即移動數據不如移動計算，也就是說在spark運行調度的時候，會傾向于將計算分發到節點，而不是將節點的數據搜集起來計算。RDD正是基于這一理念而生的，它做的也正是這樣的事情。

創建RDD

spark中提供了兩種方式來創建RDD，一種是讀取外部的數據集，另一種是將一個已經存儲在內存當中的集合進行并行化。

我們一個一個來看，最簡單的方式當然是并行化，因為這不需要外部的數據集，可以很輕易地做到。

在此之前，我們先來看一下SparkContext的概念，SparkContext是整個spark的入口，相當于程序的main函數。在我們啟動spark的時候，spark已經為我們創建好了一個SparkContext的實例，命名為sc，我們可以直接訪問到。

我們要創建RDD也需要基于sc進行，比如下面我要創建一個有字符串構成的RDD：

texts = sc.parallelize(['now test', 'spark rdd'])

返回的texts就是一個RDD：

除了parallelize之外呢，我們還可以從外部數據生成RDD，比如我想從一個文件讀入，可以使用sc當中的textFile方法獲取：

text = sc.textFile('/path/path/data.txt')

一般來說，除了本地調試我們很少會用parallelize進行創建RDD，因為這需要我們先把數據讀取在內存。由于內存的限制，使得我們很難將spark的能力發揮出來。

轉化操作和行動操作

剛才我們在介紹RDD的時候其實提到過，RDD支持兩種操作，一種叫做轉化操作(transformation)一種叫做行動操作(action)。

顧名思義，執行轉化操作的時候，spark會將一個RDD轉化成另一個RDD。RDD中會將我們這次轉化的內容記錄下來，但是不會進行運算。所以我們得到的仍然是一個RDD而不是執行的結果。

比如我們創建了texts的RDD之后，我們想要對其中的內容進行過濾，只保留長度超過8的，我們可以用filter進行轉化：

textAfterFilter = texts.filter(lambda x: len(x) > 8)

我們調用之后得到的也是一個RDD，就像我們剛才說的一樣，由于filter是一個轉化操作，所以spark只會記錄下它的內容，并不會真正執行。

轉化操作可以操作任意數量的RDD，比如如果我執行如下操作，會一共得到4個RDD：

inputRDD = sc.textFile('path/path/log.txt') lengthRDD = inputRDD.filter(lambda x: len(x) > 10) errorRDD = inputRDD.filter(lambda x: 'error' in x) unionRDD = errorRDD.union(lengthRDD)

最后的union會將兩個RDD的結果組合在一起，如果我們執行完上述代碼之后，spark會記錄下這些RDD的依賴信息，我們把這個依賴信息畫出來，就成了一張依賴圖：

無論我們執行多少次轉化操作，spark都不會真正執行其中的操作，只有當我們執行行動操作時，記錄下來的轉化操作才會真正投入運算。像是first()，take()，count()等都是行動操作，這時候spark就會給我們返回計算結果了。

其中first的用處是返回第一個結果，take需要傳入一個參數，指定返回的結果條數，count則是計算結果的數量。和我們逾期的一樣，當我們執行了這些操作之后，spark為我們返回了結果。

本文著重講的是RDD的概念，我們下篇文章還會著重對轉化操作和行動操作進行深入解讀。感興趣的同學不妨期待一下吧~

今天的文章就是這些，如果覺得有所收獲，請順手點個關注或者轉發吧，你們的舉手之勞對我來說很重要。

總結

以上是生活随笔為你收集整理的什么是spark的惰性计算?有什么优势?_spark——spark中常说RDD，究竟RDD是什么？的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：戴尔电脑怎么安装一级计算机,手把手教你戴
下一篇：灯效控制器和rgb控制器_更具个性的RG