日韩av黄I国产麻豆传媒I国产91av视频在线观看I日韩一区二区三区在线看I美女国产在线I麻豆视频国产在线观看I成人黄色短片

歡迎訪(fǎng)問(wèn) 生活随笔!

生活随笔

當(dāng)前位置: 首頁(yè) >

VMware ESXi 宕机分析过程

發(fā)布時(shí)間:2023/12/20 47 豆豆
生活随笔 收集整理的這篇文章主要介紹了 VMware ESXi 宕机分析过程 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

近期發(fā)現(xiàn)ESXI主機(jī)宕機(jī)導(dǎo)致視頻會(huì)議系統(tǒng)故障,整理分析過(guò)程如下:
環(huán)境為ESXi 6.0,被vCenter 6.7U1管理,宕機(jī)后并未拍屏幕而直接重啟了主機(jī)。

  • 從vCenter層面收集ESXi 系統(tǒng)日志,只看到實(shí)時(shí)日志,未看到宕機(jī)前的日志信息。
  • ssh 連接到esxi, cd /var/log也未看到壓縮的歷史日志文件,從vmksummary.log看到主機(jī)重啟后的時(shí)間,并有提示已經(jīng)找到DUMP文件,故障時(shí)間點(diǎn)基本確認(rèn)
  • 2019-04-16T19:54:13Z bootstop: Host has booted
    2019-04-16T19:54:13Z bootstop: partition core dump found

  • cd /scratch 看到有l(wèi)og文件夾,ls log 看到了大量壓縮的歷史日志文件
  • 原來(lái)日志被重定向到這里來(lái)了。

    4、根據(jù)時(shí)間點(diǎn)查看歷史日志文件內(nèi)容,并未發(fā)現(xiàn)有用信息。

    5、ls /scratch/core 看到有一個(gè)vmkernel-zdump.1 的dump文件,基本確認(rèn)主機(jī)發(fā)了生紫屏才宕機(jī)的

    6、如何分析打開(kāi)這個(gè)文件呢?網(wǎng)上查詢(xún)了VM 也有KB說(shuō)明,根據(jù)KB使用一個(gè)命令:
    vmkdump -l vmkernel-zdump.1 會(huì)創(chuàng)建一個(gè)vmkernel.log.1 的文件,可用cat 或vi或其它文本工具查看:
    ^[[7m2019-04-15T11:31:36.550Z cpu30:32805)WARNING: Heartbeat: 781: PCPU 26 didn't have a heartbeat for 21 seconds; may be locked up.^[[0m
    ^[[31;1m2019-04-15T11:31:36.550Z cpu26:33339)ALERT: NMI: 681: NMI IPI recvd. We Halt. eip(base):ebp:cs [0x3080cd(0x41800d800000):0x1:0x4010](Src0x1, CPU26)^[[0m
    2019-04-15T11:31:36.550Z cpu30:32805)World: 9729: PRDA 0x418047800000 ss 0x0 ds 0x10b es 0x10b fs 0x10b gs 0x0
    2019-04-15T11:31:36.550Z cpu30:32805)World: 9731: TR 0x4020 GDT 0x4392ef421000 (0x402f) IDT 0x41800d8c9000 (0xfff)
    2019-04-15T11:31:36.550Z cpu26:33339)0x4390d1d9b560:[0x41800db080cd]MemNode_NUMANodeMask2MemNodeMask@vmkernel#nover+0x25 stack: 0x1
    2019-04-15T11:31:36.550Z cpu30:32805)World: 9732: CR0 0x80010031 CR3 0x6c4ed1000 CR4 0x42768
    2019-04-15T11:31:36.550Z cpu26:33339)0x4390d1d9b580:[0x41800db45622]MemDistributeNUMAPolicy@vmkernel#nover+0x27a stack: 0x0
    2019-04-15T11:31:36.550Z cpu26:33339)0x4390d1d9b6c0:[0x41800db4616d]MemDistribute_Alloc@vmkernel#nover+0x299 stack: 0xe59bb55
    2019-04-15T11:31:36.550Z cpu26:33339)0x4390d1d9b820:[0x41800d8181f0]PagePool_AllocCustom@vmkernel#nover+0x2f0 stack: 0x4390d1d9bac0
    2019-04-15T11:31:36.550Z cpu26:33339)0x4390d1d9b8e0:[0x41800d820c04]vmk_MemPoolAlloc@vmkernel#nover+0x37c stack: 0x41800dfad8b1
    2019-04-15T11:31:36.550Z cpu26:33339)0x4390d1d9bd90:[0x41800dfad8b1]fusion_get_seq_num@<None>#<None>+0xd9 stack: 0x43034ef4cc40
    2019-04-15T11:31:36.550Z cpu26:33339)0x4390d1d9bea0:[0x41800dfa2adb]megasas_hotplug_work@<None>#<None>+0x16b stack: 0x0
    2019-04-15T11:31:36.550Z cpu26:33339)0x4390d1d9bf20:[0x41800d82245f]VmkTimerQueueWorldFunc@vmkernel#nover+0x21f stack: 0x0
    2019-04-15T11:31:36.550Z cpu26:33339)0x4390d1d9bfd0:[0x41800da13dae]CpuSched_StartWorld@vmkernel#nover+0xa2 stack: 0x0
    2019-04-15T11:31:36.600Z cpu30:32805)Panic: 798: Saved backtrace: pcpu 26 Heartbeat NMI
    2019-04-15T11:31:36.600Z cpu30:32805)pcpu 26 Heartbeat NMI: 0x4390d1d9b560:[0x41800db080cd]MemNode_NUMANodeMask2MemNodeMask@vmkernel#nov
    2019-04-15T11:31:36.600Z cpu30:32805)pcpu 26 Heartbeat NMI: 0x4390d1d9b580:[0x41800db45622]MemDistributeNUMAPolicy@vmkernel#nover+0x27a
    2019-04-15T11:31:36.600Z cpu30:32805)pcpu 26 Heartbeat NMI: 0x4390d1d9b6c0:[0x41800db4616d]MemDistribute_Alloc@vmkernel#nover+0x299 stac
    2019-04-15T11:31:36.600Z cpu30:32805)pcpu 26 Heartbeat NMI: 0x4390d1d9b820:[0x41800d8181f0]PagePool_AllocCustom@vmkernel#nover+0x2f0 sta
    2019-04-15T11:31:36.600Z cpu30:32805)pcpu 26 Heartbeat NMI: 0x4390d1d9b8e0:[0x41800d820c04]vmk_MemPoolAlloc@vmkernel#nover+0x37c stack:
    2019-04-15T11:31:36.600Z cpu30:32805)pcpu 26 Heartbeat NMI: 0x4390d1d9bd90:[0x41800dfad8b1]fusion_get_seq_num@<None>#<None>+0xd9 stack:
    2019-04-15T11:31:36.600Z cpu30:32805)pcpu 26 Heartbeat NMI: 0x4390d1d9bea0:[0x41800dfa2adb]megasas_hotplug_work@<None>#<None>+0x16b stac
    2019-04-15T11:31:36.600Z cpu30:32805)pcpu 26 Heartbeat NMI: 0x4390d1d9bf20:[0x41800d82245f]VmkTimerQueueWorldFunc@vmkernel#nover+0x21f s
    2019-04-15T11:31:36.600Z cpu30:32805)pcpu 26 Heartbeat NMI: 0x4390d1d9bfd0:[0x41800da13dae]CpuSched_StartWorld@vmkernel#nover+0xa2 stack
    2019-04-15T11:31:36.623Z cpu30:32805)^[[45m^[[33;1mVMware ESXi 6.0.0 [Releasebuild-3073146 x86_64]^[[0m
    PCPU 26: no heartbeat (2/2 IPIs received)

    基本確認(rèn)主機(jī)宕機(jī)原因是Esxi 主機(jī)無(wú)法與CPU通信(通信超時(shí)21秒)導(dǎo)致。

    vCPU分配過(guò)多了??檢查了下vCPU 數(shù)量小于LCPU。

    7、通過(guò)關(guān)鍵字進(jìn)行搜索“POSD no heartbeat”,未找到此故障原因,國(guó)外網(wǎng)友也有類(lèi)似問(wèn)題,只查到建議是升級(jí)ESXi。

    8、最后一在篇ESXi 6.0U2發(fā)行說(shuō)明“已解決問(wèn)題”看到解決了“no heartbeat”的問(wèn)題:

    ESXi 主機(jī)顯示紫色診斷屏幕并顯示多條“可更正計(jì)算機(jī)檢查中斷”(CMCI) 消息

    由于短時(shí)間內(nèi) vmkernel.log 文件中的多個(gè) CMCI 導(dǎo)致 CPU 無(wú)響應(yīng),ESXi 主機(jī)可能會(huì)失敗并顯示紫色診斷屏幕。紫色診斷屏幕中會(huì)顯示類(lèi)似以下內(nèi)容的條目:

    ESXi 主機(jī)顯示紫色診斷屏幕并顯示多條“可更正計(jì)算機(jī)檢查中斷”(CMCI) 消息

    由于短時(shí)間內(nèi) vmkernel.log 文件中的多個(gè) CMCI 導(dǎo)致 CPU 無(wú)響應(yīng),ESXi 主機(jī)可能會(huì)失敗并顯示紫色診斷屏幕。紫色診斷屏幕中會(huì)顯示類(lèi)似以下內(nèi)容的條目:

    PCPU <N>: no heartbeat (2/2 IPIs received)br/>0xXXXXXXXXXXXX:[0xXXXXXXXXXXXX]MCEReapMCABanks@vmkernel#nover+0x195
    0xXXXXXXXXXXXX:[0xXXXXXXXXXXXX]MCEHandleCMCI@vmkernel#nover+0xb4br/>0xXXXXXXXXXXXX:[0xXXXXXXXXXXXX]IRQ_DoInterrupt@vmkernel#nover+0x33e
    0xXXXXXXXXXXXX:[0xXXXXXXXXXXXX]IDT_IntrHandler@vmkernel#nover+0x12b 0xXXXXXXXXXXXX:[0xXXXXXXXXXXXX]gate_entry@vmkernel#nover+0x64br/>0xXXXXXXXXXXXX:[0xXXXXXXXXXXXX]LFQueue_Dequeue@vmkernel#nover+0x59
    0xXXXXXXXXXXXX:[0xXXXXXXXXXXXX]MCEBottomHalf@vmkernel#nover+0x39br/>0xXXXXXXXXXXXX:[0xXXXXXXXXXXXX]BH_DrainAndDisableInterrupts@vmkernel#nover+0xf3
    0xXXXXXXXXXXXX:[0xXXXXXXXXXXXX]VMMVMKCall_Call@vmkernel#nover+0x2c6

    將向 vmkernel.log 文件中記錄類(lèi)似于以下內(nèi)容的條目:

    cpu1:33127)MCE: 1118: cpu1: MCA error detected via CMCI (Gbl status=0x0): Restart IP: invalid, Error IP: invalid, MCE in progress: no.
    cpu1:33127)MCE: 231: cpu1: bank9: MCA recoverable error (CE): "Memory Controller Scrubbing Error on Channel 0."
    cpu1:33127)MCE: 222: cpu1: bank9: status=0xXXXXXXXXXXXXXXXX: (VAL=1, OVFLW=0, UC=0, EN=0, PCC=0, S=0, AR=0), ECC=no, Addr:0xXXXXXXXXXXXXXXXX (valid), Misc:0x8c3589300 (valid)

    本版本已解決該問(wèn)題。

    最后實(shí)在找不到其它原因了,就定為BUG吧。升級(jí)到esxi 6.0 U3

    https://kb.vmware.com/s/article/1002769?lang=zh_CN#q=core%20dump

    https://docs.vmware.com/cn/VMware-vSphere/6.0/rn/vsphere-esxi-60u2-release-notes.html

    轉(zhuǎn)載于:https://blog.51cto.com/emcome/2380496

    總結(jié)

    以上是生活随笔為你收集整理的VMware ESXi 宕机分析过程的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。

    如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。