Spark Metrics配置详解
Spark的Metrics系統(tǒng)目前支持以下的實(shí)例:
(1)、master:Spark standalone模式的master進(jìn)程;
(2)、worker:Spark standalone模式的worker進(jìn)程;
(3)、executor:Spark executor;
(4)、driver:Spark driver進(jìn)程;
(5)、applications:master進(jìn)程里的一個(gè)組件,為各種應(yīng)用作匯報(bào)。
在Spark的Metrics系統(tǒng)主要支持Sink和Source兩種,其中,Sink指定metrics信息發(fā)送到哪里,每個(gè)instance可以設(shè)置一個(gè)或多個(gè)Sink(這點(diǎn)和Flume很類似)。Sink的源碼位于org.apache.spark.metrics.sink包中;而Source也是指信息的來源,它主要分為兩大類:
(1)、Spark內(nèi)部source,比如MasterSource、WorkerSource等,它們會(huì)接收Spark組件的內(nèi)部狀態(tài);
(2)、通用source,如:JvmSource,它收集低級別的狀態(tài)。
文章目錄
- 1 支持的Sink類別
- 1.1 ConsoleSink
- 1.2 CSVSink
- 1.3 JmxSink
- 1.4 MetricsServlet
- 1.5 GraphiteSink
- 1.6 GangliaSink
- 2 如何使用
- 2.1 實(shí)例
支持的Sink類別
ConsoleSink
ConsoleSink是記錄Metrics信息到Console中。
| class | org.apache.spark.metrics.sink.ConsoleSink | Sink類 |
| period | 10 | 輪詢間隔 |
| unit | seconds | 輪詢間隔的單位 |
CSVSink
定期的把Metrics信息導(dǎo)出到CSV文件中。
| class | org.apache.spark.metrics.sink.CsvSink | Sink類 |
| period | 10 | 輪詢間隔 |
| unit | seconds | 輪詢間隔的單位 |
| directory | /tmp | CSV文件存儲(chǔ)的位置 |
JmxSink
可以通過JMX方式訪問Mertics信息
| class | org.apache.spark.metrics.sink.JmxSink | Sink類 |
MetricsServlet
| class | org.apache.spark.metrics.sink.MetricsServlet | Sink類 |
| path | VARIES* | Path prefix from the web server root |
| sample | false | Whether to show entire set of samples for histograms ('false' or 'true') | |
這個(gè)在Spark中默認(rèn)就開啟了,我們可以在4040端口頁面的URL后面加上/metrics/json查看
GraphiteSink
| class | org.apache.spark.metrics.sink.GraphiteSink | Sink類 |
| host | NONE | Graphite服務(wù)器主機(jī)名 |
| port | NONE | Graphite服務(wù)器端口 |
| period | 10 | 輪詢間隔 |
| unit | seconds | 輪詢間隔的單位 |
| prefix | EMPTY STRING | Prefix to prepend to metric name |
GangliaSink
由于Licene的限制,默認(rèn)沒有放到默認(rèn)的build里面,如果需要使用,需要自己編譯(這個(gè)會(huì)在后面專門介紹)
| class | org.apache.spark.metrics.sink.GangliaSink | Sink類 |
| host | NONE | Ganglia 服務(wù)器的主機(jī)名或multicast group |
| port | NONE | Ganglia服務(wù)器的端口 |
| period | 10 | 輪詢間隔 |
| unit | seconds | 輪詢間隔的單位 |
| ttl | 1 | TTL of messages sent by Ganglia |
| mode | multicast | Ganglia網(wǎng)絡(luò)模式('unicast' or 'multicast') |
如何使用
在Spark安裝包的$SPARK_HOME/conf路徑下有個(gè)metrics.properties文件(如果不存在,請將metrics.properties.template重命名為metrics.properties即可),Spark啟動(dòng)的時(shí)候會(huì)自動(dòng)加載它。
當(dāng)然,如果想修改配置文件位置,我們可以使用-Dspark.metrics.conf=xxx進(jìn)行修改。
實(shí)例
下面我將簡單地介紹如何使用Spark Metrics。我只想簡單地開啟ConsoleSink,我們可以如下配置:
*.sink.console.class=org.apache.spark.metrics.sink.ConsoleSink *.sink.console.period=10 *.sink.console.unit=secondsperiod是ConsoleSink的輪詢周期,unit是ConsoleSink的輪詢周期時(shí)間單位。上面是配置所有的實(shí)例,如果想單獨(dú)配置可以如下:
| master.sink.console.class=org.apache.spark.metrics.sink.ConsoleSink master.sink.console.period=15 master.sink.console.unit=seconds |
這個(gè)配置可以覆蓋通用配置符(也就是上面的*號)
我們?yōu)閙aster、worker、driver和executor開啟jvm source,如下:
master.source.jvm.class=org.apache.spark.metrics.source.JvmSource worker.source.jvm.class=org.apache.spark.metrics.source.JvmSource driver.source.jvm.class=org.apache.spark.metrics.source.JvmSource executor.source.jvm.class=org.apache.spark.metrics.source.JvmSource當(dāng)然,我們還可以自定義Source,這個(gè)需要繼承自org.apache.spark.metrics.source.Source類。關(guān)于如何自定義Source,我這里不介紹了,需要的同學(xué)可以去參照Spark源碼,比如JvmSource類的實(shí)現(xiàn)。
總結(jié)
以上是生活随笔為你收集整理的Spark Metrics配置详解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Spark入门 - History Se
- 下一篇: Stack.Peek 与 stack.p