日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Spark精华问答 | RDD的核心概念是什么?

發布時間:2024/9/27 编程问答 30 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Spark精华问答 | RDD的核心概念是什么? 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Hadoop再火,火得過Spark嗎?今天我們繼續關于Spark的精華問答吧。


1

Q:RDD的核心概念是什么


A:Client:客戶端進程,負責提交作業到Master。

Master:Standalone模式中主控節點,負責接收Client提交的作業,管理Worker,并命令Worker啟動分配Driver的資源和啟動Executor的資源。

Worker:Standalone模式中slave節點上的守護進程,負責管理本節點的資源,定期向Master匯報心跳,接收Master的命令,啟動Driver和Executor。

Driver: 一個Spark作業運行時包括一個Driver進程,也是作業的主進程,負責作業的解析、生成Stage并調度Task到Executor上。包括DAGScheduler,TaskScheduler。

Executor:即真正執行作業的地方,一個集群一般包含多個Executor,每個Executor接收Driver的命令Launch Task,一個Executor可以執行一到多個Task。


2

Q:RDD有哪些常見術語?


A:DAGScheduler: 實現將Spark作業分解成一到多個Stage,每個Stage根據RDD的Partition個數決定Task的個數,然后生成相應的Task set放到TaskScheduler中。

TaskScheduler:實現Task分配到Executor上執行。

Task:運行在Executor上的工作單元

Job:SparkContext提交的具體Action操作,常和Action對應

Stage:每個Job會被拆分很多組任務(task),每組任務被稱為Stage,也稱TaskSet

RDD:Resilient Distributed Datasets的簡稱,彈性分布式數據集,是Spark最核心的模塊和類

Transformation/Action:SparkAPI的兩種類型;Transformation返回值還是一個RDD,Action返回值不少一個RDD,而是一個Scala的集合;所有的Transformation都是采用的懶策略,如果只是將Transformation提交是不會執行計算的,計算只有在Action被提交時才會被觸發。

DataFrame:帶有Schema信息的RDD,主要是對結構化數據的高度抽象。

DataSet:結合了DataFrame和RDD兩者的優勢,既允許用戶很方便的操作領域對象,又具有SQL執行引擎的高效表現。


3

Q:RDD提供了哪些操作?


A:RDD提供了兩種類型的操作:

transformation和action

1,transformation是得到一個新的RDD,方式很多,比如從數據源生成一個新的RDD,從RDD生成一個新的RDD

2,action是得到一個值,或者一個結果(直接將RDD cache到內存中)

3,所有的transformation都是采用的懶策略,就是如果只是將transformation提交是不會執行計算的,計算只有在action被提交的時候才被觸發


4

Q:RDD中關于轉換(transformation)與動作(action)有什么區別?


A:transformation會生成新的RDD,而后者只是將RDD上某項操作的結果返回給程序,而不會生成新的RDD;無論執行了多少次transformation操作,RDD都不會真正執行運算(記錄lineage),只有當action操作被執行時,運算才會觸發。


5

Q:RDD 與 DSM的最大不同是什么?


A:RDD只能通過粗粒度轉換來創建,而DSM則允許對每個內存位置上數據的讀和寫。在這種定義下,DSM不僅包括了傳統的共享內存系統,也包括了像提供了共享 DHT(distributed hash table) 的 Piccolo 以及分布式數據庫等。


小伙伴們沖鴨,后臺留言區等著你!

關于Spark,今天你學到了什么?還有哪些不懂的?除此還對哪些話題感興趣?快來留言區打卡啦!留言方式:打開第XX天,答:……

同時歡迎大家搜集更多問題,投稿給我們!風里雨里留言區里等你~


福利

1、掃描添加小編微信,備注“姓名+公司職位”,加入【云計算學習交流群】,和志同道合的朋友們共同打卡學習!


2、公眾號后臺回復:白皮書,獲取IDC最新數據白皮書整理資料!


推薦閱讀:

  • 技術頭條

  • 2019年技術盤點微服務篇(二):青云直上云霄?|?程序員硬核評測

  • “入職?6?年,新人工資高我?2?千”:老板不加錢,不是嫌你老

  • 從沉迷游戲到沉迷編程,16?歲賺?20?萬美元!

  • 南大和中大“合體”拯救手殘黨:基于GAN的PI-REC重構網絡,“老婆”畫作有救了?|?技術頭條

  • 救救中國?996?程序員!GitHub?近?230,000?Star、Python?之父伸張正義!

  • 一個月修復20個漏洞獲23675美元賞金, 原來是黑客隊伍里出了無間道


真香,朕在看了!

總結

以上是生活随笔為你收集整理的Spark精华问答 | RDD的核心概念是什么?的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。