當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

CentOS6上Hadoop集群中服务器cpu sys态异常的定位与解决

發(fā)布時間：2024/7/5 编程问答 58 豆豆

生活随笔收集整理的這篇文章主要介紹了 CentOS6上Hadoop集群中服务器cpu sys态异常的定位与解决小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

問題現(xiàn)象

在zabbix系統(tǒng)中，對Hadoop集群的歷史監(jiān)控數(shù)據(jù)分析時，發(fā)現(xiàn)在執(zhí)行大Job任務(wù)時，某些服務(wù)節(jié)點的cpu sys態(tài)很高；

具體以hadoop_A服務(wù)節(jié)點為例，在10:15-10:40這個時間段，cpu user態(tài)為60%，而sys態(tài)則高達35%；

對于整個Hadoop集群，并不是所有的節(jié)點都會出現(xiàn)sys過高的問題，產(chǎn)生此類問題的都是部署CentOS6系統(tǒng)的節(jié)點。

定位分析

1. 根據(jù)zabbix系統(tǒng)中cpu sys很高的問題發(fā)生時間，找到觸發(fā)問題的大Job，以便于后面的問題重現(xiàn)和問題驗證；

2. 對問題節(jié)點hadoop_A的硬件信息和OS系統(tǒng)日志/var/log/messages進行初步檢查，并未發(fā)現(xiàn)異常；

3. 重啟Job，重現(xiàn)問題。并使用nmon工具對問題節(jié)點hadoop_A的資源負載進行粗粒度的實時監(jiān)測；

4. 通過上圖，注意到網(wǎng)絡(luò)流量達到了119.7MB/s，接收和發(fā)送的峰值都超過了120MB/s，初步懷疑網(wǎng)口在某一時間成為瓶頸，導(dǎo)致內(nèi)核的sys過高。對hadoop_A的網(wǎng)口計數(shù)器細化分析，系統(tǒng)在uptime了83天的狀態(tài)下，網(wǎng)口計數(shù)器中除overruns指標(biāo)達22萬之外，其他的網(wǎng)絡(luò)指標(biāo)正常。這說明網(wǎng)絡(luò)確實曾達到過峰值，也丟過包，但頻率非常低，sys過高的問題應(yīng)該不是網(wǎng)絡(luò)負載過高觸發(fā)。

5. 需要對系統(tǒng)進行更細粒度的分析，找出系統(tǒng)sys態(tài)消耗在什么地方。在hadoop_A節(jié)點上部署perf工具，通過perf top對kernel事件采樣，實時分析內(nèi)核事件。

通過perf top監(jiān)控可以斷定：kernel中存在頻繁的spin_lock_irqsave內(nèi)核系統(tǒng)調(diào)用, sys態(tài)消耗過高應(yīng)該與此有關(guān)。

6. 重啟Job，再次重現(xiàn)問題，并利用perf工具對內(nèi)核函數(shù)的調(diào)用關(guān)系采樣：

perf record -a -g -F 1000 sleep 30

采樣結(jié)束后，在當(dāng)前目錄上會生成一個perf.data文件，使用perf工具查看函數(shù)調(diào)用關(guān)系：

perf report -g

7. 通過調(diào)用依賴關(guān)系分析，spin_lock_irqsave主要called by compaction_alloc，初步推測問題由kernel的內(nèi)存管理部分觸發(fā)。聯(lián)想到centos 6相對于centos 5在kernel內(nèi)存管理模塊的一些改進點（如transparent huge page, 基于numa的內(nèi)存分配等），有沒有可能是CentOS6新增的THP特性導(dǎo)致cpu sys過高？再在google上搜一把相關(guān)函數(shù)名的關(guān)鍵字，印證這個猜測。

問題驗證

1. 選擇在節(jié)點hadoop_A上面做驗證測試，通過以下內(nèi)核參數(shù)優(yōu)化關(guān)閉系統(tǒng)THP特性:

echo never > /sys/kernel/mm/redhat_transparent_hugepage/enabled echo never > /sys/kernel/mm/redhat_transparent_hugepage/defrag

2. 重啟觸發(fā)問題的大Job，在hadoop_A節(jié)點未出現(xiàn)cpu sys 狀態(tài)過高的現(xiàn)象。

3. 在生產(chǎn)系統(tǒng)上運行24小時后，通過zabbix系統(tǒng)觀察，其他內(nèi)核未優(yōu)化節(jié)點如hadoop_B,hadoop_C等節(jié)點依然存在cpu sys態(tài)過高的問題，而關(guān)閉了THP特性的hadoop_A節(jié)點沒有出現(xiàn)cpu sys態(tài)過高的問題，驗證了之前的分析。

結(jié)論

將 Hadoop 集群中所有 CentOS6 類型節(jié)點的 THP 特性關(guān)閉掉 (在 CentOS6 中，THP特性默認都是打開的)，關(guān)閉方法如下：

echo never > /sys/kernel/mm/redhat_transparent_hugepage/enabled echo never > /sys/kernel/mm/redhat_transparent_hugepage/defrag

值得注意的是，需要在 puppet 系統(tǒng)中部署該項優(yōu)化，以免節(jié)點重啟導(dǎo)致修改丟失。

參考

事后，在redhat官網(wǎng)和cloudera官網(wǎng)也搜到了相關(guān)的內(nèi)容，附錄下來，供參考。

在 RedHat 的官網(wǎng)上，有對 THP 特性的細化說明：

https://access.redhat.com/site/documentation/en-US/Red_Hat_Enterprise_Linux/6/html/Performance_Tuning_Guide/s-memory-transhuge.html

在 Cloudera 的 CDH4 部署說明中，也建議將系統(tǒng)的 THP的 compaction 特性關(guān)閉：

http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH4/4.2.2/CDH4-Installation-Guide/cdh4ig_topic_11_6.html

總結(jié)

以上是生活随笔為你收集整理的CentOS6上Hadoop集群中服务器cpu sys态异常的定位与解决的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： YUI事件体系之Y.Do
下一篇： Toast与Snackbar的那点事