Spark Steaming 点滴
生活随笔
收集整理的這篇文章主要介紹了
Spark Steaming 点滴
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
Spark Streaming 模塊是對于 Spark Core 的一個擴展,目的是為了以高吞吐量,并且容錯的方式處理持續(xù)性的數(shù)據(jù)流。目前 Spark Streaming 支持的外部數(shù)據(jù)源有 Flume、 Kafka、Twitter、ZeroMQ、TCP Socket 等。
Discretized Stream 也叫 DStream) 是 Spark Streaming 對于持續(xù)數(shù)據(jù)流的一種基本抽象,在內部實現(xiàn)上,DStream 會被表示成一系列連續(xù)的 RDD(彈性分布式數(shù)據(jù)集),每一個 RDD 都代表一定時間間隔內到達的數(shù)據(jù)。所以在對 DStream 進行操作時,會被 Spark Stream 引擎轉化成對底層 RDD 的操作。對 Dstream 的操作類型有:
??? Transformations: 類似于對 RDD 的操作,Spark Streaming 提供了一系列的轉換操作去支持對 DStream 的修改。如 map,union,filter,transform 等
??? Window Operations: 窗口操作支持通過設置窗口長度和滑動間隔的方式操作數(shù)據(jù)。常用的操作有 reduceByWindow,reduceByKeyAndWindow,window 等
??? Output Operations: 輸出操作允許將 DStream 數(shù)據(jù)推送到其他外部系統(tǒng)或存儲平臺, 如 HDFS, Database 等,類似于 RDD 的 Action 操作,Output 操作也會實際上觸發(fā)對 DStream 的轉換操作。常用的操作有 print,saveAsTextFiles,saveAsHadoopFiles, foreachRDD 等。
Discretized Stream 也叫 DStream) 是 Spark Streaming 對于持續(xù)數(shù)據(jù)流的一種基本抽象,在內部實現(xiàn)上,DStream 會被表示成一系列連續(xù)的 RDD(彈性分布式數(shù)據(jù)集),每一個 RDD 都代表一定時間間隔內到達的數(shù)據(jù)。所以在對 DStream 進行操作時,會被 Spark Stream 引擎轉化成對底層 RDD 的操作。對 Dstream 的操作類型有:
??? Transformations: 類似于對 RDD 的操作,Spark Streaming 提供了一系列的轉換操作去支持對 DStream 的修改。如 map,union,filter,transform 等
??? Window Operations: 窗口操作支持通過設置窗口長度和滑動間隔的方式操作數(shù)據(jù)。常用的操作有 reduceByWindow,reduceByKeyAndWindow,window 等
??? Output Operations: 輸出操作允許將 DStream 數(shù)據(jù)推送到其他外部系統(tǒng)或存儲平臺, 如 HDFS, Database 等,類似于 RDD 的 Action 操作,Output 操作也會實際上觸發(fā)對 DStream 的轉換操作。常用的操作有 print,saveAsTextFiles,saveAsHadoopFiles, foreachRDD 等。
轉載于:https://www.cnblogs.com/TendToBigData/p/10501355.html
總結
以上是生活随笔為你收集整理的Spark Steaming 点滴的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 你会爱我到什么时候是谁唱的啊?
- 下一篇: 安装VMWare tools,以及解决安