日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當(dāng)前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Spark Metrics配置详解

發(fā)布時(shí)間:2024/1/23 编程问答 51 豆豆
生活随笔 收集整理的這篇文章主要介紹了 Spark Metrics配置详解 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
和Hadoop類似,在 Spark中也存在很多的Metrics配置相關(guān)的參數(shù),它是基于Coda Hale Metrics Library的可配置Metrics系統(tǒng),我們可以通過配置文件進(jìn)行配置,通過 Spark的Metrics系統(tǒng),我們可以把 Spark Metrics的信息報(bào)告到各種各樣的Sink,比如HTTP、JMX以及CSV文件。

  Spark的Metrics系統(tǒng)目前支持以下的實(shí)例:
  (1)、master:Spark standalone模式的master進(jìn)程;
  (2)、worker:Spark standalone模式的worker進(jìn)程;
  (3)、executor:Spark executor;
  (4)、driver:Spark driver進(jìn)程;
  (5)、applications:master進(jìn)程里的一個(gè)組件,為各種應(yīng)用作匯報(bào)。

  在Spark的Metrics系統(tǒng)主要支持Sink和Source兩種,其中,Sink指定metrics信息發(fā)送到哪里,每個(gè)instance可以設(shè)置一個(gè)或多個(gè)Sink(這點(diǎn)和Flume很類似)。Sink的源碼位于org.apache.spark.metrics.sink包中;而Source也是指信息的來源,它主要分為兩大類:
  (1)、Spark內(nèi)部source,比如MasterSource、WorkerSource等,它們會(huì)接收Spark組件的內(nèi)部狀態(tài);
  (2)、通用source,如:JvmSource,它收集低級別的狀態(tài)。

文章目錄

  • 1 支持的Sink類別
    • 1.1 ConsoleSink
    • 1.2 CSVSink
    • 1.3 JmxSink
    • 1.4 MetricsServlet
    • 1.5 GraphiteSink
    • 1.6 GangliaSink
  • 2 如何使用
    • 2.1 實(shí)例

支持的Sink類別

ConsoleSink

  ConsoleSink是記錄Metrics信息到Console中。

名稱默認(rèn)值描述
classorg.apache.spark.metrics.sink.ConsoleSinkSink類
period10輪詢間隔
unitseconds輪詢間隔的單位

CSVSink

定期的把Metrics信息導(dǎo)出到CSV文件中。

名稱默認(rèn)值描述
classorg.apache.spark.metrics.sink.CsvSinkSink類
period10輪詢間隔
unitseconds輪詢間隔的單位
directory/tmpCSV文件存儲(chǔ)的位置

JmxSink

可以通過JMX方式訪問Mertics信息

名稱默認(rèn)值描述
classorg.apache.spark.metrics.sink.JmxSinkSink類

MetricsServlet

名稱默認(rèn)值描述
classorg.apache.spark.metrics.sink.MetricsServletSink類
pathVARIES*Path prefix from the web server root
samplefalseWhether to show entire set of samples for histograms ('false' or 'true') |

這個(gè)在Spark中默認(rèn)就開啟了,我們可以在4040端口頁面的URL后面加上/metrics/json查看

GraphiteSink

名稱默認(rèn)值描述
classorg.apache.spark.metrics.sink.GraphiteSinkSink類
hostNONEGraphite服務(wù)器主機(jī)名
portNONEGraphite服務(wù)器端口
period10輪詢間隔
unitseconds輪詢間隔的單位
prefixEMPTY STRINGPrefix to prepend to metric name

GangliaSink

由于Licene的限制,默認(rèn)沒有放到默認(rèn)的build里面,如果需要使用,需要自己編譯(這個(gè)會(huì)在后面專門介紹)

名稱默認(rèn)值描述
classorg.apache.spark.metrics.sink.GangliaSinkSink類
hostNONEGanglia 服務(wù)器的主機(jī)名或multicast group
portNONEGanglia服務(wù)器的端口
period10輪詢間隔
unitseconds輪詢間隔的單位
ttl1TTL of messages sent by Ganglia
modemulticastGanglia網(wǎng)絡(luò)模式('unicast' or 'multicast')

如何使用

  在Spark安裝包的$SPARK_HOME/conf路徑下有個(gè)metrics.properties文件(如果不存在,請將metrics.properties.template重命名為metrics.properties即可),Spark啟動(dòng)的時(shí)候會(huì)自動(dòng)加載它。

  當(dāng)然,如果想修改配置文件位置,我們可以使用-Dspark.metrics.conf=xxx進(jìn)行修改。

實(shí)例

  下面我將簡單地介紹如何使用Spark Metrics。我只想簡單地開啟ConsoleSink,我們可以如下配置:

*.sink.console.class=org.apache.spark.metrics.sink.ConsoleSink *.sink.console.period=10 *.sink.console.unit=seconds

period是ConsoleSink的輪詢周期,unit是ConsoleSink的輪詢周期時(shí)間單位。上面是配置所有的實(shí)例,如果想單獨(dú)配置可以如下:

master.sink.console.class=org.apache.spark.metrics.sink.ConsoleSink master.sink.console.period=15 master.sink.console.unit=seconds

這個(gè)配置可以覆蓋通用配置符(也就是上面的*號)

我們?yōu)閙aster、worker、driver和executor開啟jvm source,如下:

master.source.jvm.class=org.apache.spark.metrics.source.JvmSource worker.source.jvm.class=org.apache.spark.metrics.source.JvmSource driver.source.jvm.class=org.apache.spark.metrics.source.JvmSource executor.source.jvm.class=org.apache.spark.metrics.source.JvmSource

  當(dāng)然,我們還可以自定義Source,這個(gè)需要繼承自org.apache.spark.metrics.source.Source類。關(guān)于如何自定義Source,我這里不介紹了,需要的同學(xué)可以去參照Spark源碼,比如JvmSource類的實(shí)現(xiàn)。

總結(jié)

以上是生活随笔為你收集整理的Spark Metrics配置详解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。