故障現(xiàn)象
某資源池在運(yùn)行過程中一臺虛擬機(jī)出現(xiàn)業(yè)務(wù)異常,通過查看日志和異常記錄,判斷為虛擬機(jī)發(fā)生時鐘跳變問題,如下圖所示。
故障分析
檢查時鐘跳變異常的原因可能有如下四個:
虛擬機(jī)和時鐘源時間是否正常同步。
是否發(fā)生過時鐘跳變,導(dǎo)致虛擬機(jī)同步發(fā)生時鐘跳變。
虛擬機(jī)是否發(fā)生過重啟,導(dǎo)致時鐘和硬件同步。
虛擬機(jī)是否有其他的時鐘源,導(dǎo)致時鐘在兩個時鐘源中變化。
根據(jù)分析原因,進(jìn)行問題排查:
1. 檢查虛擬機(jī)是否和時鐘源正常時鐘同步。
登錄到虛擬機(jī)內(nèi)部,通過ntpq -np命令查看虛擬機(jī)和時鐘源的同步狀態(tài)正常,未有大的偏差,如下圖所示。
2. 檢查時鐘源服務(wù)器,確認(rèn)是否發(fā)生過時鐘跳變等情況。
聯(lián)系時鐘源服務(wù)廠家,通過檢查時鐘源日志和其他業(yè)務(wù)系統(tǒng)時鐘日志,未發(fā)現(xiàn)時鐘中斷和跳變情況,初步判斷該跳變情況只發(fā)生在問題虛擬機(jī)上。
3. 檢查虛擬機(jī)是否發(fā)生過重啟,有無和硬件時鐘發(fā)生同步。
通過執(zhí)行uptime命令檢查虛擬機(jī)內(nèi)部狀態(tài),近期未發(fā)生重啟現(xiàn)象,如下圖所示。
4. 檢查虛擬機(jī)是否有其他時鐘源,導(dǎo)致虛擬機(jī)時鐘跳變。
a. 通過執(zhí)行ntpq -np命令查看目前虛擬機(jī)內(nèi)部只有一個時鐘源,因此需要查看是否有同步計算節(jié)點配置。
b. 登錄虛擬機(jī)內(nèi)部,執(zhí)行ps -ef|grep qemu-guest-agent進(jìn)程,查看存在qemu客戶端,如下圖所示。
c. 登錄計算節(jié)點系統(tǒng),通過執(zhí)行systemctl status qga.service和rpm -qa | grep qemu命令,確認(rèn)計算節(jié)點qemu對應(yīng)服務(wù)是否正常在線,如下圖所示。
d. 登錄計算節(jié)點系統(tǒng),通過virsh list命令讀取虛擬機(jī)的ID,執(zhí)行virsh dumpxml ID|grep "nova:name" 命令確認(rèn)虛擬機(jī),執(zhí)行virsh dumpxml ID|grep -A5 -B5 guest_agent命令確認(rèn)虛擬機(jī)配置,如下圖所示。
e. 檢查配置文件,確認(rèn)當(dāng)前虛擬機(jī)和計算節(jié)點是10分鐘發(fā)生一次強(qiáng)制同步,如下圖所示。其中“interal = 10 unit= minute ”代表10分鐘。
5. 經(jīng)過排查,確認(rèn)虛擬機(jī)每10分鐘周期強(qiáng)制和計算節(jié)點時間同步,由于計算節(jié)點時鐘和時鐘源有偏差,導(dǎo)致虛擬機(jī)發(fā)生時鐘跳變影響業(yè)務(wù)。
故障處理
1. 虛擬機(jī)時鐘同步服務(wù)器默認(rèn)不打開,只有虛擬機(jī)重啟時候會觸發(fā)一次強(qiáng)制同步。
2. 如果需要打開虛擬機(jī)時鐘同步,則需要在虛擬機(jī)上安裝QGA插件,同時在虛擬機(jī)中把QGA插件的時鐘同步開關(guān)打開。
3. 業(yè)務(wù)上線前必須明確時鐘同步方案,通常虛擬機(jī)需要直接同步時鐘源,不同步計算節(jié)點,避免時鐘跳變。
審核編輯:湯梓紅
-
服務(wù)器
+關(guān)注
關(guān)注
12文章
9295瀏覽量
85864 -
時鐘
+關(guān)注
關(guān)注
11文章
1746瀏覽量
131677 -
命令
+關(guān)注
關(guān)注
5文章
696瀏覽量
22075 -
虛擬機(jī)
+關(guān)注
關(guān)注
1文章
931瀏覽量
28359
原文標(biāo)題:TECS CloudFoundation-資源池虛擬機(jī)時鐘跳變異常的問題處理
文章出處:【微信號:ztedoc,微信公眾號:中興文檔】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論